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内 容 提要 


本 书 主 要 展示 如 何 使 用 Elasticsearch 构 建 可 扩展 的 搜索 应 用 程序 。 
书 中 覆盖 了 Elasticsearch 的 主要 特性 ， 从 使 用 不 同 的 分 析 右 和 查询 类 型 
进行 相关 性 调 优 ， 到 使 用 杠 ne GE FT RINT 分 析 ， 还 有 地 理 空 间 搜 
索 和 文档 过 滤 等 更 多 吸引 人 的 特性 


全 书 共 分 两 个 部 分 ， 第 一 部 分 解释 了 核心 特性 ， 内 容 主 要 涉及 
Elasticsearch 的 介绍 ， 数据 的 索引 更 新 和 删除 ， 数 据 的 搜索 ， 数 据 的 
分 析 ， 使 用 相关 性 进行 搜索 使 用 聚集 来 探 素数 据 ， 文档 间 的 关系 

第 二 部 分 介绍 每 个 特性 工作 的 更 多 细 和 及 其 对 性 能 和 可 扩展 性 的 
ai. 以 便 对 核心 功能 进行 产品 化 ， 内 容 主 要 涉及 水 平 扩展 和 性 能 提 
升 等 。 此 外 ， 本 书 还 有 6 个 附录 〈 网 上 下 载 ) ， 提 供 了 读者 应 该 知道 的 
特性 ， 展 示 了 关于 地 理 空间 搜索 和 聚集 ， 如 何 管理 Elasticsearch 搬 件 ， 
学 习 在 搜索 结果 中 如 何 高 亮 查 询 单词 ， 在 生产 环境 中 用 来 协助 管理 
Elasticsearch 的 第 三 方 的 监控 工具 有 哪些 ， 如 何 使 用 Percolator 过 滤 为 多 
个 查询 匹配 少量 文档 ， 如 何 使 用 不 同 的 建议 器 来 实现 目 动 完成 的 功 
能 。 


本 书 适 合 所 有 对 Elasticsearch 感 兴趣 的 技术 人 员 阅 读 。 


序 


很 后 就 看 到 这 本 书 的 英文 版 了 ， 非 常 高 兴 现 在 能 看 到 有 中 文 版 上 
市 ， 也 很 菏 幸 能 为 本 书 作 序 。 


Manning 出 版 社 的 “in Action” 系 列 的 书 质量 基本 上 都 不 会 差 。 我 记 
得 最 早 学 习 Lucene 的 时 候 ， 买 过 或 者 看 过 很 多 介绍 Lucene 或 者 搜索 引 
警 相 关 的 书籍 ， 其 中 有 些 书 要 么 星 梁 难 懂 ， 底 层 算法 介绍 和 应 用 有 点 
儿 脱 节 ， 看 完 之 后 还 是 一 头 雾 水 ， 要 么 仅仅 停留 在 实战 ， 鲜 有 提 及 形 
后 的 原理 知识 ， 全 书 咀 嚼 价值 不 大 ， 唯 独 Lucene in Action 这 本 书 看 完 
之 后 让 我 有 种 透彻 的 感觉 。 


世界 是 如 此 奇妙 ， 多 年 后 ， 我 在 Elastic 有 笠 能 够 当面 见 到 Lucene 
in Action 这 本 书 的 作者 Michael McCandless 本 人 ， 并 对 他 表示 感谢 。 无 
%18, Elasticsearch in Action 这 本 书 的 作者 之 一 Lee Hinman 目 前 也 在 
Elastic 公 司 ，Lee 同 时 也 是 Elasticsearch 的 核心 开发 工程 师 。 阅 读 这 本 书 
读者 会 发 现 ， 这 本 书 不 仅 包 括 很 多 实际 的 调用 例子 ， 还 对 各 项 功能 背 
后 的 原理 进行 了 非常 详尽 的 前 述 ， 并 辅 以 图 表 流 程 让 读者 加 深 理 解 ， 
实在 是 目前 市 面 上 少 有 的 能 够 将 Elasticsearch 介 绍 得 如 此 透彻 的 书 ， 而 
Lee 听 说 本 书 将 有 中 文 版 也 很 高 兴 。 


本 书 由 浅 入 深 ， 前 面 3 章 介 绍 Elasticsearch 的 基本 用 法 ， 第 4、5 和 6 
章 介 绍 全 文 检 索 以 及 如 何 进行 高 级 的 评分 和 目 定 义 排 序 ， 第 7 章 洱 盖 各 
种 聚合 的 使 用 ， 其 后 几 章 介绍 数据 结构 设计 、 人 集群、 运 维和 性 能 优化 
等 各 种 知识 和 技巧 ， 都 是 非常 全 面 有 用 的 知识 ， 附 录 的 内 容 干 货 也 很 
多 ， 地 理 位 置 搜索 、 搬 件 介 绍 、 高 亮 、 自 动 补 全 、 拼 写 检 查 ， 基 本 上 
涉及 了 围绕 搜索 相关 的 方方面面 。 相 信 对 照 本 书 ， 读 者 可 以 很 快 搭建 
一 个 功能 丰富 的 搜索 站 点 出 来 。 


我 们 社区 曾 翻译 过 一 本 Elasticsearch 权 威 指南 ， 深 知 翻译 工作 的 不 
容易 ， 背 后 少不了 需要 进行 大 量 的 其 酌 讨论 和 反复 修改 。 有 了 译 者 和 
编辑 的 付出 ， 才 有 了 这 本 书 ， 大 家 学 习 Elasticsearch 又 多 了 一 本 很 好 的 


参考 书 。 


Elasticsearch 及 Elastic 的 其 他 产品 最 近 几 年 发 展 很 快 ， 简 单 易 用 、 
功能 丰富 还 不 失 优 越 的 性 能 ， 在 全 球 可 谓 是 广 受 欢迎 ， 用 户 场景 也 是 
非常 丰富 ，2015 年 产品 的 票 积 下 载 次 数 就 突破 了 一 亿 ， 对 于 一 个 开源 
产品 来 说 实在 是 不 简单 。Elasticsearch 的 未 来 值得 期 待 。 


祝 大 家 阅读 愉快 ! 


Medcl 
Elastic 布 道 师 


译 者 序 


谈 到 为 什么 要 翻译 这 本 书 ， 还 是 一 段 机 缘 巧 合 。 那 是 2015 年 的 下 
半年 ， 当 时 我 正在 撰写 目 己 的 原创 书籍 《大 数据 架构 商业 之 路 : 从 业 
务 需 求 到 技术 方案 》。 由 于 在 之 前 的 实际 项 目 中 也 经 销 使 用 
Elasticsearch， 所 以 书 中 提 到 了 Elasticsearch 相 关 的 概念 以 及 如 何 用 其 
架构 基础 的 搜索 引擎 。 我 将 初稿 送 给 一 位 朋友 ， 让 他 帮 有 我 提 提 建议 ， 
而 他 的 一 个 问题 难 倒 了 我 :“ 看 过 你 的 稿子 ， 我 对 其 中 提 到 的 
Elasticsearch 特 别 感 兴趣 ， 有 没有 专门 的 书 对 其 进行 系统 性 介绍 的 ? ” 


在 那个 时 候 ，Elasticsearch 在 国内 刚刚 开始 流行 ， 我 们 多 是 直接 参 
考官 网 的 资料 。 不 过 ， 官 网 的 资料 适合 有 一 定 经 验 和 基础 的 开发 者 ， 
对 于 普通 爱好 者 而 言 门 朴 有 点 高 了 。 于 是 ， 我 搜索 了 市 面 上 
Elasticsearch 相 关 的 书籍 ， 可 惜 并 未 发 现 特别 好 的 材料 。 无 意 之 间 ， 我 
在 Amazon.com 上 发 现 了 即将 出 版 的 Elasticsearch in Action ， 于 是 到 
Manning 下 载 了 斌 读 版 。 在 阅读 之 后 我 不 禁 暗 喜 ， 这 本 书 的 内 容 比 较 
系统 全 面 ， 难 度 由 浅 入 深 ， 并 且 继 承 了 Manning 出 版 社 实 战 系 列 (in 
Action) 一 贯 的 作风 ， 让 读者 可 以 轻松 上 手 ， 乐 在 其 中 。 这 正 是 我 想 
推荐 给 朋友 的 ! 可 惜 ， 英 文 版 尚未 发 行 ， 更 何 谈 中 文 版 ? 不 过 ， 我 是 
否 能 贡献 目 己 的 力量 ， 让 这 本 书 的 中 文 版 尽快 面世 呢 ? FÆ, RWA 
试 试看 的 心态 ， 联 系 了 人 民 邮 电 出 版 社 的 编辑 杨 海 玲 老 师 。 很 驻 运 ， 
当时 此 书 还 没有 译 者 ， 于 是 我 很 采 邓 地 成 为 本 书 的 译 者 。 


不 过 翻译 的 过 程 比 我 想象 的 要 艰 笠 。 这 主要 是 因为 Elasticsearch 的 
功能 过 于 强大 。 随 着 阅读 和 翻译 的 不 断 深 入 ， 我 发 现 之 前 只 是 使 用 了 
Elasticsearch 中 很 小 的 一 部 分 特性 。 对 于 新 内 容 ， 我 也 磁 到 一 些 自己 难 
以 理解 的 地 方 。 于 是 我 主动 联系 了 原 书 的 第 一 作者 Radu， 他 总 是 非常 
仔细 地 解答 我 的 问题 ， 这 使 我 更 有 信心 ， 可 以 确保 译文 尽 可 能 地 贴近 
EX ° FELL, REX Radu RRR ORR ° SA, REER 
父母 和 妻 儿 的 支持 ， 为 了 此 书 ， 我 陪伴 你 们 的 时 间 更 少 了 ， 而 你 们 丝 
宣 没 有 怨言 ， 让 我 可 以 安心 地 完成 这 本 书 的 翻译 工作 。 


最 后 ， 很 高 兴 此 书 终 于 和 大 家 见面 了 。 在 翻译 此 书 的 大 半年 中 ， 
Elasticsearch 在 国内 外 都 获得 了 空前 的 关注 ， 社 区 也 保持 了 非常 好 的 活 
路 度 ， 相 信 这 | 门 技术 在 将 来 还 有 很 大 的 发 展 空 间 。 希 望 本 书 能 帮助 到 


每 一 位 热爱 Elasticsearch 的 朋友 ， 为 Elasticsearch 的 发 展 尽 一 份 绵薄 之 
力 。 如 采 读 者 对 本 书 中 的 技术 细 万 感 兴趣 ， 可 以 通过 如 下 渠道 联系 
我 ， 很 期 待 和 大 家 的 互动 和 交流 。 

QQ 36638279 

微 信 18616692855 

邮箱 s huang790228@hotmail.com 

LinkedIn https://cn.linkedin.com/in/shuang790228 
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译 者 简介 


Be 
il 


黄 申 博士 ， 现 任 LinkedIn (MX) 资深 数据 科学 家 ， 毕 业 于 上 海 
交通 大 学 计算 机 科学 与 工程 专业 ， 师 从 命 勇 教授 。 微 软 学 者 、IBM 
ExtremeBlue 天 才 计 划 成 员 。 长 期 专注 于 大 数据 相关 的 搜索 、 推 荐 、 广 
告 以 及 用 户 精 准 化 领域 。 曾 在 微软 亚洲 研究 院 、eBay 中 国 、 沃 尔 玛 1 
号 店 〈 现 系 东 1 号 店 ) 和 大 润 发 飞 牛 网 担任 要 职 ， 带 团队 完成 了 若干 公 
司 级 的 战略 项 目 。 同 时 在 国际 上 发 表 20 多 篇 论文 ， 并 拥有 10 多 项 国际 
专利 。《 计 算 机 工程 》 特 邀 审 稿 专家 ，2016 年 出 版 了 《大 数据 架构 商 
业 之 路 》 一 书 ， 广 受 好 评 。 因 对 业界 做 出 卓越 页 献 ， 获 得 美国 政府 颁 


发 的 “ 志 国 杰出 人 才 ” 称 号 。 


-La 


BI 


Tilt 


我 写 这 本 书 的 目的 在 于 同 读者 提供 开始 使 用 Elasticsearch 时 所 需 的 
信息 : 它 的 主要 特性 有 哪些 ， 这 些 特性 在 整个 引 敬 中 义 钙 怎样 运作 
的 ， 为 了 给 出 更 好 的 概览 ， 让 我 告诉 你 一 个 更 详细 的 故事 ， 关 于 这 本 
书 是 如 何 诞生 的 。 


我 第 一 次 渤 后 Elasticsearch 是 在 2011 年 ， 那 时 我 正在 开发 一 个 集中 
化 日 志 的 项 目 。 同 事 Mihai Sandu 回 我 展示 了 Graylog， 这 个 系统 采用 
Elasticsearch 进 行 日 志 的 搜索 ， 一 切 的 配置 都 异常 人 简单。 两 台 服 务 絮 就 
可 以 处 理 当 时 所 有 的 日 志 需 求 ， 但 是 我 们 预料 数据 量 会 在 1 年 左右 增长 
数 百倍 ， 而 且 事 实 确 实 如 此 。 基 于 此 ， 我 们 有 越 来 越 多 的 复杂 分 析 需 
求 ， 所 以 我 们 很 快 发 现 需 要 对 Elasticsearch 和 它 的 特性 拥有 更 深入 的 理 
解 ， 才 能 调 优 和 扩展 其 设置 。 


当时 没有 书籍 可 以 指导 我 们 ， 所 以 我 们 只 能 通过 艰难 的 方式 进行 
学 习 : 反复 实验 、 在 邮件 列表 里 多 次 提出 问题 和 进行 回答 。 和 驻 运 的 
是 ， 我 结识 了 许多 友善 鸭 人 人， 他们 定期 都 会 发 帖 提 供 帮 助 。 这 是 我 在 
Sematext 公 司 工 作 的 原因 ， 在 那里 我 全 身心 地 投入 到 Elasticsearch 中 , 
这 也 是 为 什么 Manning 出 版 社 问 我 是 否 对 于 写 一 本 关于 Elasticsearch 的 
书 感 兴趣 。 


我 当然 感 兴趣 。 他 们 告 诚 我 这 是 一 项 艰巨 的 任务 ， 不 过 同时 告知 
我 Lee Hinman 也 很 感 兴趣 ， 于 是 我 们 联手 了 。 有 了 两 个 作者 ， 大 家 认 
为 事情 变 得 容易 了。 尤其 是 Lee 和 我 都 症 杀 目 实 践 ， 并 且 向 对 方 提 供 了 
有 用 的 反馈 。 之 前 我 们 几乎 没有 意识 到 ， 相 比 在 前 面 的 章节 中 展示 特 
性 ， 在 后 面 的 章 市 中 将 各 项 特性 结合 到 不 同 用 例 的 最 佳 实践 中 要 困难 
得 多 。 随 后 ， 通 过 审阅 者 的 反馈 ， 我 们 发 现 将 所 有 的 事情 梳 合 在 一 起 
需要 更 多 的 工作 量 ， 前 进 的 步伐 也 变 得 越 来 越 慢 。 这 时 Roy Russo 加 入 
了 这 个 团队 ， 并 帮助 进行 了 最 后 的 推动 。 


经 过 2 年 半夜 以 继 日 ， 加 班 加 点 地 创作 ,终于 大 功 告 成 。 这 是 个 很 
艰难 的 历程 ， 但 是 也 很 充实 。 如 果 4 年 前 有 这 本 书 在 手 ， 我 一 定 爱 死 它 
了 。 硕 望 读者 能 皇 受 这 本 书 。 


Radu Gheorghe 


资源 与 支持 


本 书 由 异步 社区 出 品 ， 社 区 Chttps://www.epubit.com/) 为 您 提供 
相关 资源 和 后 续 服务 。 


配套 资源 
本 书 提供 源 代码 下 载 ， 要 获得 源 代码 请 在 异步 社区 本 书页 面 中 点 


TS ， 跳 转 到 下 载 界面 ， 按 提示 进行 操作 即 可 。 注 意 : 为 保证 
y fo} 


提交 勘误 


作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 
玖 着 。 欢 迎 您 将 发 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 


当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 
面 ， 点 击 “ 提 区 勘误 "， 输 入 勘误 人 信息， 点击“ 提交 ”按钮 即 可 。 本 书 的 
作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 您 将 获 赠 异 
步 社区 的 100 积 分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@Depubit.com.cn。 


如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮 
件 标题 中 注 明 本 书 书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 


如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 
术 审 校 等 工作 ， 可 以 发 邮件 给 我 们 ;有意 出 版 图 书 的 作者 也 可 以 到 异 
0 (直接 访问 www.epubit.com/selfpublish/ submission 
BU ay 


如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 
版 的 其 他 图 书 ， 也 可 以 发 邮件 给 我 们 。 


如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行 
为 ， 包 括 对 图 书 全 部 或 部 分 内 容 的 非 授 权 传 播 ， 请 您 将 怀疑 有 侵权 行 
为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 古 对 作者 权益 的 保护 ， 也 古 我 
们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致 力 于 出 版 
精品 IT 技术 图 书 和 相关 学 习 产品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 
社区 创办 于 2015 年 8 月 ， 提 供 大 量 精品 IT 技术 图 书 和 电子 书 ， 以 及 高 品 
质 技术 文章 和 视频 谍 程 。 更 多 详情 请 访问 异步 社区 官网 


https://www.epubit.com ° 


“FEDS AB” ee ED Sa A RR h A ITR MERES 
品牌 ， 依 托 于 人 民 邮 电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编 
辑 团 队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 LOGO。 异 步 图 书 的 出 版 
领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 


微 信 服务 号 


致谢 


正 因 为 很 多 人 提供 了 无 价 的 文 持 ， 才 使 得 这 本 书 的 面市 成 为 可 


ut 
EE 


e Susan Conant，Manning 的 开发 编辑 ， 通 过 多 种 方式 文 持 我 们 : 对 
于 草稿 提供 有 价值 的 反馈 ， 帮 助 规划 书本 和 独立 章节 的 结构 ， 给 
天 或 励 以 及 下 一步 的 建议 ， 帮助 我 们 克服 前 进 道 路 上 的 障碍 ， 等 


SF 
e Jettro Coenradie， 技 术 编 辑 ， 在 本 书 印刷 之 前 帮助 我 们 审阅 了 大 
段 的 书稿 ， 并 且 在 出 版 前 的 最 后 步骤 中 再 次 提供 了 协助 。 
Valentin Grettaz， 帮 助 进 行 了 全 面 的 技术 校对 。 
Manning 早 期 访问 计划 (MEAP) 的 读者 ， 在 作者 在 线 论坛 上 贴 出 
了 很 多 有 益 的 评论 。 
我 无 法 想象 ， 如 果 没 有 如 下 这 些 审阅 者 在 开发 过 程 中 提供 民 好 的 
反馈 ， 这 本 书 会 是 什么 样子 : Achim Friedland ` Alan McCann ` 
Artur Nowak ` Bhaskar Karambelkar ` Daniel Beck ` Gabriel 
Katenbaumn ` Gianluca Rhigetto ` Igor Motov ` Jeelani Shaik ` Joe 
Gallo ` Konstantin Yakushev ` Koray Güclü ` Michael Schleichardt ` 
Paul Stadig ` Ray Lugo Jr. ` Sen Xu 和 Tanguy Leroux ° 


Radu Gheorghe 


我 按照 时 间 顺 序 表达 感谢 。 致 我 Avira 时 同事 : Mihai Sandu ` 
Mihai Efrim ` Martin Ahrens ` Matthias Ollig 和 很 多 其 他 人 ， 支 持 我 学 
习 Elasticsearch， 而 且 容 忍 我 并 非 总 是 成 功 的 实验 。 感 谢 我 Sematext 的 
同事 Otis GospodnetiC， 文 持 我 学 习 以 及 进行 和 社区 的 互动 。 感 谢 Rafal 
Kuć 〈 又 名 Master Rafat) 提供 宝贵 的 技巧 和 容 门 。 最 后 ， 要 感谢 我 的 
家 性 为 我 提供 各 方面 的 支持 ， 这 里 只 能 晴 蜂 点 水 地 提 一 下 : 我 的 父母 
Nicoelta 和 Mihai Gheorghe， 我 的 岳父 岳母 Midilina 和 Adrian Radu, $e 
供 了 美味 的 佳 看 、 安 静 的 空间 和 至 关 重 要 的 精神 文 持 。 我 的 爱 妻 
Alexandra 是 个 真正 的 英雄 : 她 设法 在 撰写 自己 的 作品 的 同时 ， 仍 然 照 
顾 好 所 有 的 事情 ， 来 保障 我 的 写作 。 还 有 一 点 很 重要 的 是 : 我 6 图 的 儿 


fF Andrei, ROH HAY WH LL ECE REA SCM OUT TN, BE AR 
(REKE SES the CH o 


Lee Hinman 


Bt, PRA ee DelilahAARKAH RW, REITE, 
成 为 我 冒险 的 伙伴 ， 在 闭 书 和 生活 的 许多 方面 给 予 了 我 很 大 的 文 持 。 
感谢 她 在 女儿 Vera Ovelia 诞 生 期 间 继续 救 励 我 。 我 还 要 感谢 所 有 为 
Elasticsearch 做 出 页 献 的 人 们 。 没 有 你 们 ， 开 源 软 件 不 会 成 为 可 能 。 我 
很 采 幸 能 为 这 样 一 个 广泛 应 用 而 且 功 能 强大 的 软件 项 目 做 出 贡献 。 


Roy Russo 


我 要 感谢 我 的 女儿 Olivia 和 Isabella、 我 的 儿子 Jacob 和 我 的 妻子 
Roberta。 你 们 在 我 的 号 后 文 持 我 的 事业 ， 成 为 我 灵感 和 动力 的 源 录 。 
你 们 通过 支持 、 关 爱 和 理解 ， 将 不 可 能 化 为 可 能 。 


关于 本 书 


自从 2010 年 问世 ，Elasticsearch 已 经 逐渐 流行 起 来 。 它 被 用 于 不 同 
的 场景 ， 从 产品 搜索 这 种 传统 的 搜索 引擎 使 用 模式 ， 到 实时 性 的 社会 
媒体 、 应 用 日 志和 其 他 流 式 数据 的 分 析 。Elasticsearch 的 强项 在 于 它 的 
分 布 式 模型 (使 得 其 可 以 便捷 而 又 有 效 地 进行 水 平 扩展 ) ， 还 有 丰富 
的 分 析 功 能 。 所 有 这 些 都 是 构建 在 已 有 的 Apache Lucene 搜 索引 擎 包 之 
上 。Lucene 也 在 与 时 俱 进 ， 处 理 同 样 数量 的 数据 ， 可 以 花费 更 少 的 
CPU 计算 、 内 存 容 量 和 磁 一 空间 。 


本 书 履 盖 了 Elasticsearch 的 主要 特性 ， 从 使 用 不 同 的 分 析 器 和 查询 
类 型 进行 相关 性 的 调 优 ， 到 使 用 聚集 功能 进行 实时 性 分 析 ， 还 有 更 多 
吸引 人 的 特性 ， 如 地 理 空 间 搜索 和 文档 过 滤 。 


读者 将 很 快 发 现 ，Elasticsearch 是 很 容易 上 手 的 。 读 者 可 以 放 入 文 
档 、 搜 索 它们 、 建 立 统计 ， 甚 至 是 在 数 小 时 内 将 数据 分 发 并 复制 到 多 
台 机 器 上 。 加 认 的 行为 和 设置 对 于 程序 员 而 言 是 非常 友好 的 ， 使 得 概 
念 验证 的 建立 非常 容易 。 

从 原型 到 生产 系统 通常 是 件 很 困难 的 事情 ， 因 为 会 碰 到 各 种 功能 
或 性 能 的 限制 。 这 也 二 为 什么 我 们 会 解释 在 引擎 兰 之 下 ， 各 个 部 件 是 
如 何 工作 的 。 这 样 就 可 以 调整 合适 的 选项 ， 以 获得 民 好 的 搜索 相关 性 
和 集群 的 读 写 性 能 。 


具体 来 讲 ， 我 们 将 讨论 哪些 特性 ? 来 看 看 本 书 路 线 图 的 一 些 细 


$ 
本 书 分 为 两 个 部 分 : “核心 功能 ?和 "高 级 功能 ”。 我 们 建议 按照 顺 


序 阅 读 每 一 章 ， 原 因 是 某 个 章节 中 的 功能 经 党 依赖 于 之 前 章节 表述 的 
概念 。 如 采 你 喜欢 事 必 身 亲 的 方式 ， 每 一 章 都 包含 可 以 参考 的 代码 清 


单 和 代码 片段 ， 但 是 你 并 不 需要 用 笔记 本 电脑 来 学 习 Elasticsearch 的 概 
念 和 它 是 如 何 工 作 的 。 


第 一 部 分 解释 了 核心 特性 一 一 如 何 建 模 和 索引 数据 ， 这 样 可 以 根 


据 用 例 的 需求 来 进行 搜索 和 分 析 。 在 此 部 分 的 最 后 ， 读 者 将 理解 
Elasticsearch 功 能 的 基础 元 件 。 


第 1 章 给 出 了 概览 ， 让 读者 理解 搜索 引擎 通常 是 干什么 的 ， 以 及 

Elasticsearch 与 众 不 同 的 特性 。 此 章 结束 后 ， 读 者 应 该 理解 使 用 

Elasticsearch 可 以 解决 哪些 问题 。 

第 2 章 开始 尝试 主要 的 功能 ， 索 引文 档 、 搜 索 它们 、 通 过 聚集 来 分 

析 数 据 ， 并 且 进 行 多 蔬 点 的 水 平 扩展 。 

第 3 章 履 盖 的 课题 是 进行 索引 、 更 新 、 删 除数 据 时 面临 的 选项 。 读 

pe ee 以 及 写 入 这 些 字段 时 将 会 发 
人 O 

第 4 章 中 ， 读 者 将 深入 到 全 文 索引 的 世界 。 探 索 重 要 的 查询 类 型 和 

过 滤器 ， 并 学 习 它 们 是 如 何 工作 的 ， 以 及 何 时 运用 哪 种 类 型 。 

第 5 章 解 释 了 分 析 步 骤 如 何 将 文 要 和 和 查询 中 的 文本 分 解 到 搜索 所 用 

的 分 词 。 读 者 将 学 习 如 何 使 用 不 同 的 分 析 喜 来 充分 挖掘 

Elasticsearch 全 文 搜索 的 潜力 ， 也 包括 如 何 构 建 目 己 的 分 析 器 。 

第 6 草 聚 焦 在 相关 性 问题 上 ， 帮 助 读 者 完善 全 文 搜索 的 技巧 。 读 者 

将 学 习 有 影响 文档 得 分 的 因素 以 及 如 何 操 作 它们 。 包 括 不 同 的 打分 

算法 、 提 升 (boost) 特定 的 查询 和 字段 或 者 是 通过 文档 本 身 的 数 

E (如 “喜欢 ”和 “转发 ”的 次 数 ) 来 提升 分 数 。 

第 7 章 展示 了 如 何 通过 聚集 功能 来 进行 实时 性 的 分 析 。 读 者 将 学 习 

如 何 将 聚集 和 查询 连接 在 一 起 、 如 何 将 它们 藤 克 在 一 起 用 于 发 现 

和 TORR 来 自 波 兰 的 某 个 人 挥 落 的 ...... 2 年 前 (大 海 

A (0) 

第 8 章 谈论 的 是 关系 型 数据 ， 就 像 乐 了 从 和 他 们 的 专辑 。 读 者 将 学 习 

如 何 使 用 Elasticsearch 的 特性 ， 如 藤 套 文档 和 父子 关系 ， 还 有 通用 

的 NoSQL 技 术 (如 反 归 一 化 或 者 应 用 端的 连接 ) 来 索引 和 搜索 非 

局 平 化 的 数据 。 


第 二 部 分 帮助 读者 对 核心 功能 进行 产品 化 。 为 了 实现 这 个 目标 ， 


读者 将 学 习 每 个 特性 工作 的 更 多 细 市 ， 及 其 对 于 性 能 和 可 扩展 性 的 影 


响 。 


。 第 9 章 谈论 的 是 水 平 扩展 到 多 个 万 点 。 读 者 将 学 习 如 何 切 分 和 复制 
索引 。 例 如 ， 通 过 过 度 分 片 和 基于 时 间 的 索引 ,今天 的 设计 可 以 
处 理 明 年 的 数据 。 

在 第 10 章 中 读者 将 发 现 有 助 于 提升 更 多 集群 性 能 的 穿 门 。 随 着 内 
容 逐 步 深 入 ， 读 者 将 学 到 Elasticsearch 是 如 何 使 用 缓存 并 将 数据 写 
入 位 盘 的 ， 还 有 不 同 的 权衡 策略 ， 可 使 用 它们 按 需 调整 
Elasticsearch ° 

第 11 章 展示 如 何在 生产 中 监控 和 管理 集群 。 读 者 将 会 了 解 需 要 关 
注 的 重要 指标 ， 如 何 备 份 和 恢复 数据 ， 以 及 如 何 使 用 索引 模板 和 
别名 之 类 的 快捷 方式 。 


本 书 的 6 个 附录 包含 了 读者 应 该 知道 的 特性 ， 但 是 这 些 特性 和 某 些 
用 例 并 不 相关 。 布 望 * 附 了 永 ” 这 个 词 不 会 让 人 误 认 为 我 们 对 其 曾 述 是 肤 
浅 的 。 本 书 余下 的 部 分 将 深入 如 下 功能 运作 的 细 市 。 


。 附 邓 A 是 关于 地 理 空间 搜索 和 聚集 的 内 容 。 

。 附 孙 B 展 示 了 如 何 管 理 Elasticsearch 插 件 。 

。 在 附 永 C 中 读者 将 学 习 如 何在 搜索 结果 中 高 亮 查 询 单词 。 

。 附 邓 D 介 绍 了 第 三 方 监控 工具 ， 在 生产 环境 中 你 可 能 会 希望 使 用 
El 站 来 协 助 管理 Elasticsearch ° 

。 a eae 为 多 个 查询 匹配 少量 文 


。 附录 F 解 释 了 如 何 使 用 不 同 的 建议 器 (suggester) 来 实现 “您 是 

指 ? ”和 目 动 完成 的 功能 。 
代码 的 约定 和 下 载 

所 有 代码 清单 和 文本 中 的 源 代 码 都 是 用 等 宽 字体 来 区 分 的 。 很 多 
代码 清单 都 有 注解 ， 强 调 重 要 的 概念 。 

本 书 中 所 有 样 例 的 可 运行 源 代 码 ， 以 及 如 何 运 行 它 们 的 指导 ， 都 
能 从 https://github.com/dakrone/ elasticsearch-in-action 获 得 。 读 者 也 可 以 
从 Manning 出 版 社 的 网 站 下 载 源 代码 。 


代码 片段 和 源 代码 可 以 在 Elasticsearch 1.5 版 本 上 运行 。 它 们 应 该 
可 以 在 所 有 1.x 分 文 版 本 上 运行 。 在 写 这 本 书 的 时 候 ， 版 本 2.0 的 路 线 图 


也 变 得 清晰 起 来 ， 这 一 点 也 已 经 考虑 在 内 : 我 们 跳 过 了 即将 淘汰 的 特 
性 ， 如 大 多 数 预定 义 字 段 的 配置 选项 。 还 有 其 他 的 ， 如 过 滤 硕 缓存 ， 
在 1.x 和 2.x 版 本 中 的 行为 表现 截然 不 同 ， 我 们 已 在 标注 中 特别 指出 。 


作者 在 线 


购买 本 书 的 权益 包括 Manning 出 版 社 个 人 网 络 论坛 的 免费 访问 权 
限 ， 在 该 论坛 中 读者 可 以 对 书籍 进行 评价 ， 提 出 技术 问题 ， 并 且 获 得 
作者 和 其 他 用 户 的 帮助 。 要 访问 和 订阅 作者 在 线 论坛 ， 可 在 浏览 器 里 
访问 www.manning.com/books/elasticsearch-in-action。 这 个 页 面 提 供 了 
很 多 信息 ， 包 括 如 何在 注册 后 登录 论坛 、 可 以 获得 何 种 帮助 以 及 论坛 
上 的 行为 准则 。 


Manning 出 版 社 对 读者 的 承诺 是 ， 拓 供 一 个 场所 ， 让 读者 之 间 、 
读者 和 作者 之 间 进 行 有 意义 的 对 话 ， 但 并 未 承 庄 具 体 的 作者 的 参与 程 
度 ， 作 者 对 论坛 的 页 献 仍 然 是 保持 日 愿 的 原则 。 


只 要 本 书 还 在 销售 中 ， 作 者 在 线 论坛 、 之 前 讨论 的 存档 就 可 以 通 
过 出 版 社 网 站 获取 。 


关于 封面 插图 


本 书 封 面 的 画像 名 为 “来 自 克罗地亚 的 男人 ”。 这 幅 插 图 选 自 19 世 
纪 中 时 Nikola Arsenovic 所 著 克 罗 地 亚 传 统 服 装 图 集 的 复制 品 ， 由 元 罗 
地 亚 独 立民 族 博 物 馆 于 2003 年 出 版 。 通 过 独立 民族 博物 馆 的 管理 员 获 
得 。 这 家 博物 馆 位 于 城镇 中 世纪 中 心 的 罗马 核心 公元 304 年 左右 
Diocletian 旦 带 隐 退 的 宫殿 。 这 本 书包 含 了 克罗地亚 不 同 地 区 人 物 的 精 
美 插图 ， 摘 绘 了 他 们 的 服饰 和 日 常生 活 。 


在 过 去 的 200 年 里 ， 人 类 着 装 风 范 和 生活 方式 都 发 生 了 改变 。 而 今 

当时 极为 丰富 的 地 区 多 样 性 也 已 逐渐 消失 。 现 在 很 难 区 分 各 大 洲 的 居 

民 ， 更 不 用 说 相隔 只 有 数 千 米 的 村 庄 或 城镇 。 也 许 我 们 已 经 用 文化 的 

六 民 换 到 了 不 同 的 个 人 生活 ， 肯 定 是 一 种 更 为 不 同 、 快 节奏 的 科技 化 
y o 


Manning 出 版 社 通过 图 书 封 面 反映 两 个 世纪 前 丰富 多 样 的 地 域 生 
活 ， 以 此 来 庆 视 计算 机 业 的 创造 性 和 原创 性 。 如 此 古老 的 书籍 和 收藏 
的 插画 ， 念 佛 把 我 们 市 回 到 过 去 的 日 子 。 


第 一 部 分 


在 这 部 分 中 ， 我 们 将 讨论 按照 功能 来 看 Elasticsearch 能 做 些 什么 。 
第 1 章 将 从 更 为 宽泛 的 概念 开始 ， 探 索 Elasticsearch 通 常 是 如 何 用 作 搜 
索引 擎 ， 以 及 如 何 高 效 地 建立 模型 、 建 立 索 引 、 搜 索 和 分 析 数 据 。 读 
完 第 一 部 分 ， 读 者 将 对 Elasticsearch 能 提供 什么 功能 、 如 何 使 用 它 解 决 
搜索 和 实时 分 析 问 题 有 深入 的 理解 。 


1H ”Elasticsearch 介 绍 


本 章 主要 内 容 
。 理解 什么 是 搜索 引擎 ， 以 及 它们 能 解决 什么 样 的 问题 
。 Elasticsearch 为 何 能 胜任 搜索 引擎 的 工作 
。 Elasticsearch 典 型 的 使 用 场景 
。 lasticsearch 提 供 的 功能 
。 如何 安 装 Elasticsearch 


如 今 ， 我 们 无 处 不 在 地 使 用 “搜索 *。 这 是 件 好 事 ， 因 为 搜索 能 帮 
你 从 容 不 担 地 完成 手 尖 上 的 工作 。 无 论 古 在 线 购物 ， 还 是 访问 博客 ， 
你 都 不 会 心甘情愿 地 将 整个 站 点 翻 个 撒 朝天， 而 是 更 希望 有 个 搜索 杠 
适时 地 出 现 ， 帮 助 你 发 现 真 心 想 要 的 。 也 许 只 有 我 是 这 样 的 人 ， 当 我 
(Radu) 在 清晨 醒 来 的 时 候 ， 多 么 希望 进入 厨房 后 ， 能 有 个 搜索 框 让 
人 可 以 直接 输入 “ 确 ? 这 个 词 ， 然 后 最 心爱 的 碗 怠 出 现在 面前 。 


我 们 也 很 期 竺 这 些 搜索 框 变 得 更 智能 。 没 有 必要 输入 “ 碗 ”这 个 词 
所 需 的 全 部 字母 《要 知道 ， 在 英文 里 bowl 要 输入 4 个 字母 ) ; 希望 搜索 
框 能 有 目 动 提示 的 功能 ， 而 且 提 示 的 内 容 要 合理 ， 不 能 胡乱 提示 。 搜 
索 返 回 的 内 容 也 要 智能 些 ， 最 相关 的 结 有 果 要 排 在 前 面 : 简单 来 说 殉 是 
尽 可 能 猜 中 用 户 想 要 什么 。 举 个 例子 ， 在 线 购 物 时 ， 我 搜索 了 “笔记 本 
电脑 ”， 发 现 排 在 前 面 的 都 是 笔 记 本 的 配件 ， 往 下 翻 了 很 多 才 看 到 真正 
的 电脑 ， 那 看 完 这 页 后 我 一 定 会 去 其 他 家 买 了 。 我 们 需要 看 到 最 相关 
的 结果 和 提示 ， 一 方面 是 因为 人 们 生活 市 奏 很 快 ， 被 许多 民 好 的 搜索 
体验 穹 坏 后 不 愿意 再 浪费 时 间 ;， 男 一 个 方面 ， 有 越 来 越 多 的 东西 可 供 
选择 。 再 举 个 例子 ， 一 位 朋友 让 我 帮 她 挑 人 台新 的 笔记 本 电脑 。 如 采 查 
询 “ 为 我 的 朋友 购买 一 台 最 棒 的 笔记 本 电脑 ”， 那 么 一 家 在 线 商 店 即 使 
销售 成 和 十 上 万 款 别 致 的 电脑 ， 它 也 不 太 可 能 给 出 有 效 的 管 案 。 民 好 的 
关键 子 查 询 往 往 还 不 够 ， 你 还 需要 从 搜索 结果 中 得 到 一 些 统计 信息 ， 
并 利用 其 定位 用 户 的 兴趣 。 我 会 选择 屏幕 的 尺寸 、 价 格 区 间 等 来 逐步 
缩小 选择 的 范围 ， 直 到 将 目标 锁定 到 5 台 左 右 的 电脑 。 


最 后 ， 还 需要 考虑 性 能 问题 ， 因 为 没有 人 愿意 等 行 。 我 曾经 在 一 
些 网 站 上 有 过 粳 薰 的 经 历 ， 搜 索 过 后 数 分 钟 结 采 才 展现 出 来 。 注 意 ， 


单位 是 分 钟 ! 一 次 搜索 竟然 化 了 这 人 么 久 。 


如 果 你 想 让 目 己 的 数据 能 被 搜索 ， 需 要 处 理 如 下 事项 : 返回 相关 
的 搜索 结果 ， 返 回 统计 信息 ， 而 且 要 非常 快速 地 完成 。 这 就 是 
Elasticsearch 这 种 搜索 引 敬 存在 的 意义 ， 因 为 它们 生来 就 是 迎接 这 些 挑 
战 的 。 它 可 以 在 关系 型 数据 库 上 搭建 搜索 引擎 ， 建 立 索 引 并 加 速 SQL 
查询 的 执行 。 或 许 ， 也 可 以 从 NoSQL 数 据 存储 上 建立 索引 ， 然 后 文 持 
搜索 功能 。 可 以 通过 Elasticsearch 做 到 这 些 ， 此 外 由 于 Elasticsearch 里 
的 数据 是 通过 文档 形式 表示 的 ， 它 和 MongoDB 这 种 面 回 文档 的 存储 搭 
配 起 来 也 很 美妙 。Elasticsearch 这 样 的 现代 搜索 引擎 还 能 完好 地 存储 数 
据 ， 甚 至 可 以 将 其 直接 作为 珊 搜 索 功 能 的 NoSQL 数 据 存储 来 使 用 。 


Elasticsearch 是 构建 在 Apache Lucene 之 上 的 开源 分 布 式 搜索 引擎 。 
Lucene 是 开源 的 搜索 引 警 包 ， 人 允许 你 通过 目 己 的 Java 必 用 程序 实现 搜 
索 功 能 。Elasticsearch 充 分 利用 Lucene， 并 对 其 进行 了 扩展 ， 使 存储 、 
索引 、 搜 索 都 变 得 更 快 、 更 容易 ， 而 最 重要 的 是 ， 正 如 名 字 中 
的 “elastic" 所 示 ， 一 切 都 是 灵活 、 有 弹性 的 。 而 且 ， 应 用 代码 也 不 是 必 
须 用 Java 书 写 才 可 以 和 Elasticsearch 兼 容 ， 你 完全 可 以 通过 JSON 格 式 的 
HTTP 请 求 来 进行 索引 、 搜 索 和 管理 Elasticsearch 集 群 。 


本 章 将 阐述 搜索 和 数据 的 特性 ， 你 将 在 本 书 中 学 习 如 何 使 用 它 
们 。 首 和 完 ， 让 我 们 来 近 距 离 体验 一 下 搜索 引擎 通常 面临 的 挑战 ， 以 及 
Elasticsearch 应 对 这 些 挑 战 的 解决 方案 吧 。 


1.1 用 Elasticsearch 解 决 搜索 问题 


为 了 更 好 地 理解 Elasticsearch 是 如 何 工 作 的 ， 让 我 们 先 看 一 个 示 
例 。 假 设 你 正在 搭建 一 个 博客 网 站 ， 并 且 和 希望 用 户 可 以 在 全 站 搜索 特 
定 的 帖子 。 要 完成 的 第 一 项 任务 加 是 实现 基于 关键 词 的 搜索 。 例 如 ， 
一 位 用 户 碍 询 “ 选 举 ”， 系 统 需 要 返回 所 有 包含 这 个 关键 词 的 帖子 。 


搜索 引擎 将 完成 这 些 工 作 ， 但 是 对 于 一 个 健壮 的 搜索 功能 而 言 ， 
你 需要 更 多 特性 : 引擎 可 以 快速 地 返回 查询 结 有 末 ， 而 且 这 些 结果 都 是 
相关 的 。 当 用 户 并 不 清楚 具体 要 用 哪些 词 来 查找 时 ， 搜 索 还 能 提供 辅 
助 的 功能 ， 用 于 实现 更 佳 的 用 户 体 验 。 这 些 辅 助 的 功能 具体 包括 识别 
普 误 的 输入 ， 给 出 目 动 提示 ， 并 对 结 末 进 行 分 类 。 


本 章 的 大 部 分 内 容 将 有 助 于 你 了 解 Elasticsearch 的 特性 。 如 果 你 是 个 急性 子 ， 人 迫不及待 
想 实战 一 把 ， 并 准备 安装 它 了 ， 可 以 直接 跳 到 1.5 节 。 你 会 发 现 原来 安装 如 此 之 简单 。 当 
然 ， 也 可 以 随时 回 到 这 里 ， 看 看 整体 的 概述 。 


1.1.1 提供 快速 查询 


如 有 果 网 站 上 有 很 多 帖子 ， 在 其 中 查找 “选举 ”这 个 词 会 非常 耗 时 。 


你 当然 不 希望 用 户 一 直 等 着 。Elasticsearch 恰 好 能 帮 上 忙 ， 因 为 它 是 采 
用 Lucene 作 为 底层 的 。Lucene 是 个 高 性 能 的 搜索 引擎 包 ， 默 认 情 况 下 
会 将 所 有 的 数据 全 部 进行 索引 ° 


这 里 所 说 的 索引 是 一 种 数据 结构 ， 它 依据 你 的 数据 建造 ， 最 终 会 
让 搜索 变 得 非常 迅速 。 在 大 多 数据 库 中 ， 可 以 使 用 几 种 不 同 的 方式 为 
字段 添加 索引 。 而 Lucene 使 用 的 古 倒 排 索引 ， 这 意味 着 它 将 创建 一 个 
数据 结构 ， 并 在 其 中 保存 记录 每 个 单词 出 现在 哪些 数据 中 的 清单 。 例 
本 
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表 1-1 博客 标签 的 倒 排 索引 


原始 数据 索引 数据 〈 倒 排 索引 ) 


博客 文章 ID 标签 签 博客 文章 ID 


如 果 搜 索 含 有 elections ( 选举 ) 标签 的 帖子 ， 那 么 相对 查找 
原始 数据 而 言 ， 碍 找 倒 排 索引 后 的 数据 会 更 快捷 。 因 为 只 需要 碍 看 标 
签 是 elections 这 一 栏 ， 然 后 获得 相应 所 有 的 文章 ID (这 里 是 1 和 
3) 。 在 搜索 引擎 的 应 用 场景 下 ， 这 种 速度 的 提升 是 非常 必要 的 。 在 现 
实 世 界 中 ， 你 基本 不 会 只 查询 1 个 关键 词 。 例 如 ， 如 果 搜 "Elasticsearch 
in Action”，3 个 词 加 意 味 着 查询 速度 提升 了 3 倍 。 现 在 看 来 这 有 点 儿 隐 
淮 难 懂 ， 不 过 没关系 ， 在 第 3 章 讨论 建立 索引 和 第 4 章 讨论 搜索 时 ， 我 
们 将 解释 更 多 的 细 广 。 


即使 考虑 到 相关 性 ， 倒 排 索引 对 于 搜索 引擎 而 言 也 是 一 个 适合 的 
方案 。 举 个 例子 ， 当 查找 “peace”( 和 平 ) 这 样 的 单词 时 ， 你 不 仅 可 以 
看 到 哪些 文档 是 匹配 的 ， 还 能 免费 获得 这 些 文档 的 总 数 。 这 一 点 很 天 
键 ， 原 因 是 一 个 词 如 果 出 现在 很 多 文档 中 ， 那 么 它 很 可 能 和 每 个 文档 
都 不 太 相 关 了 。 就 说 搜索 的 “Elasticsearch in Action” 吧 ， 有 个 文档 包 
括 “in” 这 个 单词 (当然 还 有 上 百 万 个 文档 也 包括 “in”) 。 你 会 意识 
到 “in” 是 个 常见 词 ， 即 使 这 个 文档 因为 包含 “in”* 而 匹配 成 功 ， 也 不 代表 
它 和 查询 有 多 相关 。 对 比 之 下 ， 如 果 这 个 文档 包含 “Elasticsearch”( 可 
能 还 有 数 百 个 文档 也 包含 “Elasticsearch”) ， 你 就 知道 离 相 关 文 档 不 远 
了 了。 其实 ， 知 道 离 答 案 更 进一步 的 并 不 是 “你 ”， 而 是 Elasticsearch 玲 你 
。 在 第 6 章 中 ， 读 者 将 会 学 到 如 何 通过 调 优 数据 和 搜索 来 提升 相 


同时 ， 为 了 提升 搜索 的 性 能 和 相关 性 ， 还 需要 更 多 的 位 盘 空 间 来 
存储 索引 。 增 加 新 的 博客 帖子 会 越 来 越 慢 ， 因 为 每 次 添加 数据 天 要 更 
新 索引 。 对 此 ， 调 优 可 以 让 Elasticsearch 无 论 在 索引 还 是 搜索 时 都 变 得 
更 快 。 我 们 将 在 第 10 章 详细 讨论 这 些 细 市 。 


1.1.2 确保 结 采 的 相关 性 


接 下 来 有 一 个 难题 : 如 何 将 真正 描述 选举 的 帖子 排序 在 前 呢 ? 有 
了 Elasticsearch， 就 可 以 使 用 几 个 算法 来 计算 相关 性 的 得 分 (relevancy 
score) ， 然 后 根据 分 数 来 将 结果 逐个 排序 。 


对 于 每 个 符合 查询 条 件 的 文档 ， 它 的 相关 性 得 分 标示 该 文档 和 查 
询 条 件 的 相关 程度 。 例 如 ， 一 条 博客 帖子 多 次 出 现 了 “elections”"， 频 率 


超过 了 其 他 的 帖子 ， 那 么 该 文章 讨论 选举 相关 的 话题 的 可 能 性 就 更 
大 。 这 里 我 们 看 下 DuckDuckGo 的 示例 ， 如 图 1-1 所 示 。 
Election - Wikipedia, the free encyclopedia 


"Free election" redirects here. For the " electlons" of Polish kings, see Royal electlons in Poland 
W enwikipedi lect 


Florida Division of Elections 


Offers information for Florida voters about the candidates, election process, electors, and registration 


图 1-1 ”如果 文档 出 现 更 多 的 查询 关键 词 (加 粗 的 那些 ) ， 它 就 会 拥有 人 靠 前 的 排名 


默认 情况 下 ， 计 算 文 档 相 关 性 得 分 的 算法 是 TF-IDF (term 
frequency-inverse document frequency， 词 频 - 逆 文档 频率 ) 。 我 们 将 在 
讨论 搜索 和 相关 性 的 第 4 章 和 第 6 章 中 ， 进 一 步 讨论 得 分 和 TF-IDF 的 更 
多 细节 。 这 里 先 讲 一 下 基本 概念 TF-IDF， 下 面 是 会 影响 相关 性 得 
分 的 两 个 因素 。 


。 词 频 一 一 所 查找 的 单词 在 文档 中 出 现 的 次 数 越 多 ， 得 分 越 高 。 
。 逆 文档 词 频 一 一 如 来 某 个 单词 在 所 有 文档 中 比较 少见 ， 那 么 该 词 
的 权重 越 高 ， 得 分 也 会 越 高 。 


例如 ， 当 在 目 行 车 爱好 者 的 博客 上 搜索 “ 目 行车 竞 赛 "的 时 候 ， 
为 “ 目 行车 ”在 所 有 文档 中 出 现 的 频率 要 融 于 “" 营 赛 "， 所 以 对 最 后 得 分 
献 较 小 。 同 时 ， 一 篇 文章 中 二 者 出 现 次 数 越 多 ， 这 篇 文章 的 得 分 也 
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会 越 高 。 


除了 选择 算法 ，Elasticsearch 还 提供 了 很 多 其 他 内 置 的 功能 来 计算 
相关 性 得 分 ， 以 满足 定制 需求 。 例 如 ， 你 可 以 “提升 ”特定 字段 的 得 
分 :从 相关 性 的 角度 考虑 ， 帖 子 的 标题 比 文 章 主体 更 为 重要 。 这 样 标 
题 上 相 匹配 的 文档 会 比 仅 仅 在 主体 中 匹配 上 的 文档 获得 更 高 的 分 数 。 
你 也 可 以 让 精确 匹配 比 部 分 匹配 获得 更 高 的 分 数 ， 甚 至 通过 脚本 添加 
定制 条 件 来 改变 得 分 的 计算 。 例 如 ， 如 采 帖 子 允 许 用 尸 点 赞 ， 可 以 根 
ee i ae eas 
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现在 不 用 担心 这 些 特 性 的 具体 机 制 。 第 6 章 中 会 讨论 更 多 相关 性 的 
细节 。 当 下 ， 让 我 们 重点 天 注 通 过 Elasticsearch 能 做 什么 ， 以 及 何 时 会 
用 到 这 些 特性 。 


1.13 ”超越 精确 匹配 


最 后 ，Elasticsearch 有 些 选 项 可 以 让 搜索 变 得 很 直观 ， 而 不 仅仅 是 
精确 匹配 用 户 的 输入 。 当 用 户 录 入 与 已 存储 词 有 所 不 同 的 错误 拼写 、 
同义词 或 派生 词 时 ， 这 些 选 项 使 用 起 来 非常 方便 。 当 用 户 不 完全 清楚 
搜索 什么 的 时 候 ， 这 些 选 项 也 能 帮 到 他 们 。 


1. 处 理 错误 的 拼写 


可 以 通过 配置 ， 让 Elasticsearch 容 和 肪 一 些 变化 ， 而 不 仅仅 是 只 碍 找 
精确 匹配 。 使 用 模糊 查询 , “bicycel” 的 输入 同样 可 以 让 用 户 找到 关 
于 “bicycles” 的 博客 。 在 第 6 章 中 ， 我 们 将 会 深入 研究 模糊 查询 和 其 他 
相关 性 的 特性 。 


2. 支持 变 体 


使 用 第 5 章 中 阐述 的 分 析 模 块 可 以 让 Elasticsearch 明 白 这 个 道理 : 
标题 里 包含 “bicycle" 的 帖子 ， 同 样 可 以 和 “bicyclist”" 或 “cycling” 的 查询 
匹配 上 。 你 可 能 已 经 注意 到 ， 在 图 1-1 中 , “elections” FA 
配 “election”。 你 还 会 注意 到 ， 匹 配 的 单词 会 通过 加 粗 来 突显 。 
Elasticsearch 同 样 可 以 实现 这 个 功能 ， 在 附录 C 中 将 讨论 高 党 功能 。 


3. 使 用 统计 信息 


当 用 户 不 太 清 楚 具 体 要 搜索 什么 的 时 候 ， 可 以 通过 几 种 方式 来 协 
助 他 们 。 一 种 方法 是 第 7 章 探 讨 的 案 集 统计 数据 ° FR SR ce TEI RR 
得 到 一 些 统计 数据 ， 如 每 个 分 类 有 多 少 议 题 、 每 个 分 类 中 “ 钢 ” 和 "分 
享 ” 的 平均 数量 。 假 想 一 下 ， 进 入 博客 时 ， 用 户 会 在 右 侧 看 见 最 近 流 行 
的 议题 。 其 中 之 一 是 目 行 车 。 对 其 感 兴趣 的 读者 会 点 击 这 个 标题 ， 进 
一 步 缩小 范围 。 然 后 ， 可 能 还 有 另外 的 聚集 方式 ， 将 目 行车 相关 的 帖 
子 分 为 “ 目 行车 鉴赏 ” 目 行车 大 事件 ”等 。 


4. 给 予 自 动 提 示 


当 用 户 开 始 输入 时 ， 你 可 以 帮助 他 们 发 现 主 流 的 查询 和 结 采 。 还 
可 以 通过 目 动 提示 技术 预测 他 们 所 要 输入 的 内 容 ， 融 像 Wweb 上 很 多 搜 
索引 擎 做 的 那样 。 你 同样 可 以 展示 主流 的 结 末 ， 通 过 特殊 的 查询 类 型 
来 匹配 前 级 、 通 配 符 或 正则 表达 式 。 附 录 F 中 会 讨论 建议 妖 
(suggester) ， 与 普通 的 查询 自动 完成 功能 相 比 ， 建 议 器 速度 更 快 。 


既然 已 经 讨论 了 Elasticsearch 的 整体 功能 ， 接 下 来 束 来 看 看 在 实际 
产品 中 这 些 功 能 是 如 何 使 用 的 。 


1.2 ”探索 典型 的 Elasticsearch 使 用 案例 


我 们 已 经 可 以 确定 ， 在 Elasticsearch 中 存储 和 索引 数据 ， 是 提供 快 
速 和 相关 查询 结果 的 上 佳 方法 。 但 是 归根 结 压 ，Elasticsearch 只 是 个 搜 
索引 擎 ， 你 永远 不 可 能 单独 使 用 它 。 职 像 其 他 数据 存储 ， 需 要 通过 某 
a 也 可 能 需要 提供 用 户 搜索 数据 的 交互 界 


为 了 理解 Elasticsearch 是 如 何 融入 更 大 的 系统 中 的 ， 来 考虑 以 下 3 
种 典型 的 应 用 场景 。 


。 将 Elasticsearch 作 为 网 站 的 主要 后 端 系统 正如 我 们 所 讨论 ， 你 
可 能 拥有 一 个 网 站 ， 人 允许 人 们 书写 博客 帖 ， 但 是 你 希望 有 搜索 帖 
子 的 功能 。 可 以 使 用 Elasticsearch 存 储 所 有 和 帖子 相关 的 数据 ， 并 
处 理 查 询 请 求 。 

将 Elasticsearch 添 加 到 现 有 系统 你 阅读 此 书 可 能 是 因为 已 经 有 
一 套 人 处理 数据 的 系统 ， 而 你 想 加 入 搜索 功能 。 我 们 将 浏览 几 个 整 
体 设计 ， 看 看 这 一 点 是 如 何 实现 的 。 

将 Elasticsearch 作 为 现 有 解决 方案 中 的 后 端 部 分 一 一 因为 
Elasticsearch 是 开源 的 系统 ， 并 且 提 供 了 直接 的 HTTP 接 口 ， 现 有 
一 个 大 型 的 生态 系统 在 支持 它 。 例 如 ，Elasticsearch 在 日 志 集 中 处 
理 中 应 用 广泛 。 考 虑 到 现 有 工具 可 以 写 入 和 读 取 Elasticsearch， 你 
可 以 不 需要 进行 任何 开发 ， 而 是 配置 这 些 工 具 让 其 按照 你 所 想 的 


去 运作 。 


让 我 们 仔细 查看 一 下 每 个 应 用 场景 。 


1.2.1 ”将 Elasticsearch 作 为 主要 的 后 端 系 统 


传统 意义 上 说 来 ， 搜 索引 擎 在 完善 的 数据 存储 的 基础 之 上 部 署 ， 
用 于 提供 快速 和 相关 的 搜索 能 力 。 这 年 因为 历 史上 的 搜索 引擎 没有 近 
供 持久 化 存储 以 及 类 似 统计 的 其 他 常用 功能 


Elasticsearch 是 一 个 现代 搜索 引擎， 提供 了 持久 化 存储 、 统 计 和 很 
多 其 他 数据 存储 的 特性 。 如 果 正 在 局 动 一 个 狐 项 目 ， 我 们 建议 你 考虑 
使 用 Elasticsearch 作 为 唯一 的 数据 存储 ， 尽 量 使 设计 保持 人 简洁。 这 样 做 
也 许 不 能 在 所 有 用 例 中 都 行 得 通 ， 例 如 ， 存 在 很 多 数据 更 狐 的 时 候 。 
这 时 你 也 可 以 在 男 一 个 数据 存储 上 使 用 Elasticsearch 。 


就 像 其 他 的 NoSQL 数 据 存储 ， Elasticsearch 并 个 文 持 事 务 。 在 第 3 章 中 ， 你 将 看 到 如 何 
| 使 用 版 本 控制 来 管理 并 发 。 如 果 需 要 事务 机 制 ， 请 考虑 使 用 其 他 的 数据 库 作 为 “真实 之 

的 在 使 用 单一 的 数据 源 时 ， 定 期 的 备份 也 是 很 好 的 实践 ， 我 们 将 在 第 11 章 中 探讨 
| ATL Fil 


回 到 博客 的 示例 : 你 可 以 在 Elasticsearch 中 存储 新 写 的 博客 帖 。 类 
似 地 ， 可 以 使 用 Elasticsearch 来 检索 、 搜 索 或 者 在 所 有 数据 上 进行 统 
计 ， 如 图 1-2 所 示 。 


索 
新 的 博客 帖 


Elasticsearch 


图 1-2 ”Elasticsearch 作 为 唯一 的 后 端 ， 存 储 并 索引 所 有 的 数据 


MWR- ERSAN ERRETA? 可 以 通过 将 数据 复制 到 不 同 
的 服务 需 来 达到 容错 的 效果 。 很 多 其 他 特性 使 得 Elasticsearch 成 为 一 个 
很 有 吸引 力 的 NoSQL 数 据 存储 。 这 样 做 不 可 能 面面俱到 ， 但 是 你 需要 


博客 帖 


权衡 一 下 ， 在 整体 设计 中 引入 男 一 个 数据 源 而 增加 额外 的 复杂 度 ， 这 
样 做 是 否 值得 。 


1.2.2 ”将 Elasticsearch 添 加 到 现 有 的 系统 


就 其 本 刁 而 言 ，Elasticsearch 也 许 不 会 提供 你 所 需 的 一 切 数据 存储 
功能 。 某 些 场合 需要 在 另 一 个 数据 存储 的 基础 上 使 用 Elasticsearch 。 


例如 ， 目 前 Elasticsearch 还 不 支持 事务 和 复杂 关系 的 特性 ， 至 少 在 
版 本 1 中 是 如 此 。 如 果 需 要 那样 的 特性 ， 请 考虑 同时 使 用 Elasticsearch 
和 另 一 个 不 同 的 数据 存储 。 


或 者 你 已 经 有 一 个 复杂 的 系统 在 运作 ， 但 是 想 加 入 搜索 功能 。 如 
果 只 是 为 了 使 用 Elasticsearch 而 重新 设计 整个 系统 (尽管 随 着 时 间 的 推 
移 你 可 能 有 这 种 想法 ， 那 么 未 免 太 冒险 了 。 更 安全 的 方法 是 在 系统 
中 加 入 Elasticsearch， 让 它 和 现 有 模块 协同 工作 。 


无 论 哪 种 方式 ， 如 果 你 有 两 个 数据 存储 ， 必 须 想方设法 保持 它们 
的 同步 。 根 据 主要 数据 存储 是 什么 类 型 的 ， 以 及 数据 是 如 何 布 局 规划 
的 ， 可 以 部 署 一 个 Elasticsearch 插 件 ， 保 持 两 者 同步 ， 如 图 1-3 所 示 。 


搜索 


插入 
新 的 博客 帖 


SQL 数据 库 


1-3 ”Elasticsearch 和 另 一 个 数据 存储 位 于 同一 系统 中 


举 个 例子 ， 假 设 有 一 家 在 线 零 售 商店 ， 商 品 的 信息 都 存在 SQL 数 
据 库 中 ， 需 要 快速 而 且 相 天 性 恨 好 的 搜索 ， 于 是 安装 了 Elasticsearch ° 
为 了 索引 数据 ， 需 要 部 署 同步 的 机 制 ， 既 可 以 是 Elasticsearch 的 插件 ， 
也 可 以 是 自行 构建 的 定制 化 服务 。 在 附录 B 中 你 将 学 习 更 多 关于 插件 
的 内 容 ， 在 第 3 章 中 将 学 习 更 多 通过 自己 的 应 用 程序 进行 索引 和 更 新 的 
内 容 。 同 步 的 机 制 可 以 将 每 个 商品 对 应 的 数据 拉 取 出 来 ， 并 将 其 索引 
到 Elasticsearch 之 中 ， 每 个 商品 存储 为 一 篇 Elasticsearch 的 文档 。 


当 用 户 在 页 面 上 的 搜索 条 件 框 中 输入 时 ， 商 店 的 前 端 网 络 应 用 程 
序 根据 那些 条 件 查 询 Elasticsearch。Elasticsearch 返 回 一 些 符合 条 件 的 
商品 文档 ， 按 照 你 喜欢 的 方式 排序 。 排 序 可 以 基于 相关 性 得 分 ， 该 得 
分 体现 用 户 碍 询 的 关键 词 在 每 个 商品 文档 出 现 的 次 数 ， 或 者 是 商品 文 
档 里 存储 的 任何 信息 ， 如 商品 最 近 多 久 上 架 的 、 平 均 的 得 分 甚至 是 多 
项 因素 的 综合 。 


言 恩 的 揪 入 或 更 新 仍然 可 以 在 “ 主 2SQL 数 据 库 上 进行 ， 所 以 你 可 
以 使 用 Elasticsearch 仅 来 处 理 搜索 。 保 持 Elasticsearch 更 狐 最 近 的 变化 
取决 于 同步 的 机 制 。 


当 需 要 将 Elasticsearch 和 其 他 模块 集成 的 上 时候， 可 以 看 看 现 有 的 工 
具 哪 些 已 经 完成 你 所 想 要 的 。 下 一 部 分 中 将 探讨 ， 社 区 为 Elasticsearch 
构建 了 一 些 强 大 的 工具 ， 有 些 时 候 没 有 必要 目 己 构建 定制 的 模块 。 


1.2.3 ”将 Flasticsearch 和 现 有 工具 一 同 使 用 


在 某 些 用 例 中 ， 无 须 编写 任何 代码 ， 束 能 让 Elasticsearch 帮 你 将 任 
务 搞定 。 很 多 现成 的 工具 可 以 和 Elasticsearch 协 同 工 作 ， 没 有 必要 从 头 
开 


始 。 


H 

例如 ， 假 设 你 想 部 署 大 规模 的 日 志 框 架 ， 用 于 存储 、 搜 索 和 分 析 
海量 的 事件 。 如 图 1-4 所 示 ， 为 了 处 理 日 志 ， 并 输出 到 Elasticsearch ， 
可 以 使 用 Rsyslog、Logstash 或 Apache Flume 这 样 的 日 志 工 具 。 为 了 通 
过 可 视 化 界面 搜索 和 分 析 日 志 ， 可 以 使 用 Kibana。 


Elasticsearch 


Kibana 


图 1-4 Elasticsearch 和 另 一 个 数据 存储 位 于 同一 系统 


事实 上 ，Elasticsearch 在 Apache 2 许可 证 下 是 开源 的 。 确 切 地 说 ， 
开源 不 是 如 此 多 工具 支持 Elasticsearch 的 唯一 原因 。 尺 管 Elasticsearch 
是 Java 编 写 的 ， 不 仅仅 是 Java API 可 以 和 它 工 作 。 它 也 暴露 了 REST 
任何 应 用 程序 ， 无 论 是 何 种 编程 语言 编写 的 ， 都 可 以 访问 这 种 
z ° 


此 外 ，REST 请 求 和 结果 返回 通常 是 JSON (JavaScript Object 
Notation) 格式 的 。 通 常 ， 一 个 REST 请 求 有 其 自己 的 JSON 有 效 载荷 ， 
返回 结果 同样 是 一 个 JSON 文 档 。 


JSON 是 表达 数据 结构 的 一 种 格式 。 一 个 JSON 对 和 象 通 常 包 含 链 和 值 ， 值 可 以 是 字符 
串 、 数 字 、 真 / 假 、 空 、 另 一 个 对 象 或 数组 


对 于 应 用 程序 而 言 ，JSON 很 容易 解析 和 生成 。YAML (YAML Ain’t Markup 
Language) 可 以 达到 同样 的 目的 。 为 了 激活 YAML， 在 HTTP 请 求 中 添加 format=yaml 的 
参数 。 尽 管 JSON 通 常 是 用 于 HTTP 连 接 ， 配 置 文件 常常 是 以 YAML 书 写 。 在 这 本 书 中 ， 我 
们 坚持 使 用 流行 的 格式 ;HTTP 连接 使 用 SON ， 配 置 文件 使 用 YAML ° 


举 个 例子 ， 在 Elasticsearch 中 进行 索引 时 ， 日 志 事 件 可 能 是 这 
样 的 : 


"message": "logging to Elasticsearch for the first time", 


个 拥有 字符 串 值 的 字段 
"timestamp": "2013-08-05T10:34:00" -<--- 字 符 串 值 可 以 是 一 个 日 期 ， 


Elasticsearch 会 自动 评估 
} 


~ aa JSON 字 段 名称 显 示 为 深 灰 色 ， 它 们 的 值 显示 为 浅 灰 色 ， 以 此 使 得 代码 更 容 
阅读 。 


一 个 message 值 为 first 的 日 志 搜 索 请 求 会 是 这 样 : 


{ 
"query": { 
"match": { «---query 字段 的 值 是 一 个 包含 match 字段 的 对 象 
"message": "first" <---match 字段 包含 另 一 个 对 象 ， 该 对 象 中 


message 字段 的 值 是 first 


} 
} 


通过 HTTP 上 的 JSON 对 象 来 发 送 数据 、 运 行 查 询 ， 这 样 可 以 更 容 
易 地 扩展 任何 事物 ， 从 Rsyslog 这 样 的 系统 日 志 守 护 进程 到 Apache 
ManifoldCF 这 样 的 连接 框架 ， 让 它们 和 Elasticsearch 进 行 交 互 。 如 果 从 
头 开 始 构建 一 个 新 的 应 用 ， 或 是 将 搜索 功能 加 入 现 有 的 应 用 ，REST 
API 是 一 个 使 得 Elasticsearch 变 得 更 吸引 人 的 特性 。 我 们 将 在 下 一 部 分 
中 了 解 这 些 特性 。 


1.2.4 Elasticsearch 的 主要 特性 


Elasticsearch 让 你 可 以 轻松 地 使 用 Lucene 的 索引 功能 ， 并 搜索 数 
据 。 在 索引 步骤 中 ， 有 许多 的 选项 ， 可 以 设置 如 何 处 理 文本 、 如 何 存 
储 处 理 后 的 文本 。 在 搜索 的 时 候 ， 有 很 多 查询 和 过 小 絮 供 选择 。 
Elasticsearch 通 过 REST API 显 露 了 很 多 功能 ， 让 用 户 可 以 构建 JSON 格 
式 的 查询 、 调 整 大 多 数 的 配置 。 


在 Lucene 提 供 的 功能 之 上 ，Elasticsearch 添 加 了 其 自己 的 高 级 功 
能 ， 从 缓存 到 实时 性 分 析 。 在 第 7 章 中 ， 你 将 学 习 如 何 通过 聚集 功能 进 
行 分 析 ， 借 此 获得 最 流行 的 博客 标签 、 一 组 帖子 的 平均 流行 度 ， 以 及 
任意 的 组 合 ， 如 每 类 标签 中 帖子 的 平均 流行 度 。 


另 一 种 抽象 层次 是 组 织 文档 的 方式 : 多 个 索引 可 以 单独 搜索 、 也 
可 以 同时 搜索 ， ERRADO AAS] 3 


最 终 ， Elasticsearch BL REI 4 oF — 样 ， 是 具有 有 灵活 性 的 。 默 认 它 
就 是 集群 化 的 (BME ete Ho IRA wD, ERZ KWER) , FE 
ze A ARME SARS as A AEE o R, WR 
载 较 低 的 时 候 ， 可 以 很 容易 地 从 集群 中 移 除 服务 器 ， 降 低 成 本 。 


在 本 书 余下 的 部 分 ， 我 们 将 讨论 这 些 特性 的 大 量 细节 (特别 是 第 9 


~ Fe) ， 在 此 之 前 ， 先 来 近 距 离 观察 下 这 些 特性 是 如 何 起 到 作用 


1.2.5 扩展 Lucene 的 功能 


在 很 多 用 例 中 ， 用 户 会 基于 多 项 条 件 进 行 搜索 。 例 如 ， 可 以 在 多 
个 字段 中 搜索 多 个 关键 词 ;一 些 条 件 是 必需 的 ， 一 些 条 件 是 可 选 的 。 
Elasticsearch 最 为 人 赏识 的 一 个 特性 是 结构 合理 的 REST API: 可 以 通 
过 JSON 构 建 查 询 ， 使 用 很 多 方式 来 结合 不 同类 型 的 查询 。 在 第 4 章 中 
我 们 将 展示 如 何 做 到 这 些 ， 读 者 还 将 理解 如 何 使 用 过 滤器 ， 以 低 成 本 
和 可 缓存 的 方式 去 包含 和 排除 搜索 结果 。 基 于 JSON 的 搜索 可 以 同时 包 
含 查询 、 过 滤器 和 聚集 ， 聚 集 从 匹配 的 文档 中 生成 统计 数据 。 


通过 同样 的 REST API， 可 以 读 取 和 改变 很 多 设置 (将 在 第 11 章 介 
绍 ) ， 包 括 文档 索引 的 方式 。 


如 果 你 已 经 听 说 过 Lucene， 那 么 可 能 你 也 听 说 了 Solr， 它 是 开源 的 基于 Lucene 的 分 布 
式 搜 索引 擎 。 实 际 上 ，Lucene 和 Solr 于 2010 年 合并 为 一 个 单独 的 Apache 项 目 ， 你 可 能 好 奇 
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两 者 都 提供 了 相似 的 功能 ， 每 个 新 版 本 中 特性 都 快速 地 进化 。 可 以 通过 互联 网 查找 它 
们 的 对 比 ， 但 是 我 们 建议 持 保留 态度 。 除 了 受 限 于 特定 版 本 (这 种 比较 几 个 月 之 内 就 会 过 
时 ) ， 很 多 观点 出 于 种 种 原 因 也 都 是 有 所 偏见 的 。 


即便 如 此 ， 还 是 有 一 些 历史 事实 有 助 于 解释 两 个 产品 的 起 源 "Solr 诞 生 于 2004 年 ， 而 
Elasticsearch 诞 生 于 2010 年 。 当 Elasticsearch 出 现 的 时 候 ， 它 采用 的 分 布 式 模 式 〈 本 章 稍 后 
介绍 ) 使 它 相 比 其 竞争 对 手 而 言 更 容易 水 平 扩 展 ， 这 也 印证 了 它 名 字 中 的 “elastic”。 但 是 ， 


= 


ee .0 中 加 入 了 分 片 ， 因 而 “分 布 式 ”的 说 法 值得 商 梭 ， 就 像 很 多 其 他 方面 


在 本 书 撰写 的 时 候 ，Elasticsearch 和 Solr 都 拥有 对 方 所 不 具备 的 特性 ， 对 于 它们 的 选择 
取决 于 在 特定 时 期 所 需要 的 具体 功能 。 对 于 很 多 用 例 而 言 ， 你 所 需 的 功能 两 者 都 已 提供 。 
和 很 多 竟 品 选择 一 样 ， 它 们 之 间 的 选择 往往 变 成 了 个 人 口味 问题 。 如 果 想 阅读 更 多 关于 
内 容 ， 我 们 推荐 Trey Grainger 和 Timothy Potter 所 闭 的 《Solr 实 战 》 (Manning， 
12014) œ 


当 考 虑 文档 索引 的 方式 时 ， 一 个 重要 的 方面 是 分 析 。 通 过 分 析 ， 
BARS SCA PIN Ae Elasticsearch PRIYA 。 例 如， 如 果 索 引文 
race”， 分 析 步 又 将 产生 “bicycle”race”“cycling” 和 “racing” 的 ] 

。 当 搜索 其 中 任 一 词 条 ， 相 应 的 文档 就 会 被 返回 。 当 进行 搜索 
会 会 应 用 同样 的 分 析 过 程 ， 如 图 1-5 所 示 。 如 果 输 入 “bicycle race” 


你 可 能 不 想 仅仅 是 字符 串 的 严格 匹配 。 也 许 某 个 文档 ， 在 不 同 的 位 置 
分 别 出 现 这 两 个 关键 词 ， 它 也 是 符合 要 求 的 。 


bicycle 搜索 请 求 


1 E $ 
= | on | -= | als | 


Elasticsearch 


图 1-5 ”在 你 进行 索引 和 搜索 的 时 候 ， 分 析 步 又 将 文本 拆 解 为 单词 


默认 的 分 析 絮 首先 通过 空格 和 逗号 这 样 的 常用 单词 分 隔 人 特 ， 将 文 
本 拆 解 为 单词 。 然 后 将 其 转化 为 小 写 ， 这 样 “Bicycle Race” 变 
为 "bicycle" 和 “race”。 有 很 多 分 析 亏 供 选 择 ， 你 也 可 以 目 行 构建 。 第 5 


草 将 讨论 这 些 。 


目前 ， 图 1-5 中 “被 索引 的 数据 * 方 框 看 上 去 非常 抽象 ， 你 可 能 想 知 

道 其 中 有 些 人 什么。 正如 接 下 来 所 探讨 的 ， 数 据 以 文档 的 形式 组 织 。 默 

认 情 况 下 ，Elasticsearch 原 封 不 动 地 保存 文档 ， 并 将 分 析出 的 词 条 放 入 

倒 排 索引 ， 使 得 所 有 重要 、 快 速 且 相关 性 良好 的 搜索 成 为 可 能 。 在 第 3 
章 中 ， 我 们 深入 数据 索引 和 存储 的 细节 。 现 在 ， 先 来 近 距 离 观 察 一 

ie | SE i 回 文 档 的 ， 它 又 是 如 何 将 文档 按照 类 型 和 


1.2.6 ”在 Elasticsearch 中 组 织 数 据 


关系 型 数据 库 以 记录 和 行 的 形式 存储 数据 。 和 关系 型 数据 库 不 
同 ，Elasticsearch 以 文档 的 形式 存储 数据 。 然 而 ， 茶 种 程度 上 说 ， 两 个 
概念 是 相似 的 。 关 系 型 数据 表 的 行 都 有 很 多 列 ， 每 一 行 的 每 一 列 拥 有 
一 个 值 。 每 个 文档 拥有 键 和 值 ， 方 式 差 不 多 。 


区 别 在 于 ， 至 少 在 Elasticsearch 中 ， 文 档 比 数据 表 的 行 更 为 灵活 。 
这 主要 是 因为 文档 可 以 是 具有 层次 型 的 。 例 如 ，"author":"Joe" 
这 样 的 键 和 字符 串 值 天 联 方式 ， 同 样 可 以 用 于 文档 中 关联 字符 串 数 
组 ， 如 "tags ":["cycling", "bicycles"], EZ eax, 
如 "author": {"first_name":"Joe", 
"last_name":"Smith"}。 这 种 灵活 性 是 非常 重要 的 ， 因 为 它 喜 励 
你 将 所 有 属于 一 个 逻辑 实体 的 数据 保持 在 同一 个 文档 中 ， 而 不 是 让 它 
们 散落 在 不 同 的 数据 表 的 不 同行 中 。 例 如 ， 最 容易 的 (可 能 也 是 最 快 
的 ) 博客 文章 存储 方式 是 将 某 篇 帖子 的 所 有 数据 保持 在 同一 个 文档 
中 。 使 用 这 种 方式 ， 搜 索 是 很 快速 的 ， 因 为 无 须 进 行 表 的 连接 或 其 他 
天 系 型 的 工作 。 

如 果 你 有 SQL 的 知识 背景 ， 可 能 会 怀念 表 连 接 的 功能 。 但 至 少 


1.76 版 本 的 Elasticsearch 中 是 不 文 持 此 项 功能 的 。 不 过 ， 即使 新 增 了 这 
个 功能 ， 通 常 只 需要 下 载 最 新 版 ， 束 能 让 Elasticsearch 表 次 运行 起 来 。 


1.2.7 ”安装 Java 语 言 


如 果 还 没有 Java Runtime Environment (JRE) ， 需 要 先 安 装 它 。 
任何 1.7 或 更 新 版 本 的 JRE 都 是 可 以 的 。 通 常 ， 人 们 会 安装 从 Oracle 下 
载 的 版 本 ， 或 者 是 开源 的 实现 版 OpenJDK ° 


ayy 27s Java” Faia "apa 除 


在 Elasticsearch 或 其 他 Java 应 用 程序 中 ， 可 能 会 发 生 这 样 的 情况 : 你 已 经 下 载 并 安装 了 
Java， 但 是 应 用 程序 没 能 启动 ， 并 提示 无 法 发 现 Java 。 


Elasticsearch 的 脚本 通过 两 种 方式 查找 Java 的 安装 : JAVA_HOME 环境 变量 和 系统 
径 。 要 检查 Java 安 装 目录 是 否 在 JAVA_HOME 中 ， 在 UNIX 类 系统 中 使 用 env 命令 ,在 
Windows 系 统 中 使 用 set 命令 。 要 检查 是 否 在 系统 路 径 中 ， 运 行 如 下 命令 : % 
version ° 


如 果 生 效 了 ， 那 么 Java 就 已 经 配置 在 路 径 之 中 。 如 果 不 行 ， 要么 配置 JAVA_HOME ， 要 


么 将 Java 运 行 包 添加 到 路 径 中 。 o Java 的 运行 包 通常 在 Java 安 装 路 径 (应 该 就 是 JAVA_HOME 
) 的 bin 目录 中 ° 


1.2.8 ”下 载 并 局 动 Elasticsearch 


当 Java 设 置 完毕 ， 需 要 获得 Elasticsearch 并 启动 它 。 请 下 载 最 适合 
你 工作 环境 的 安装 包 。 在 Elastic 官 方 网 站 上 可 用 的 安装 包 选 项 有 Tar、 
ZIP、RPM 和 DEB ° 


1. 任何 UNIX 类 的 操作 系统 


如 果 在 Linux、Mac 或 其 他 任何 UNIX 类 的 操作 系统 上 运行 ， 可 以 
从 tar.gz 包 获得 Elasticsearch。 然 后 将 安装 包 展 开 ， 通 过 压缩 包 中 的 shell 
脚本 来 启动 Elasticsearch 。 


% tar zxf elasticsearch-*.tar.gz 
% cd elasticsearch-* 


% bin/elasticsearch 


2. 用 于 OS X 系 统 的 Homebrew 安 装 包 管理 器 


如 果 需 要 在 Mac 上 使 用 更 人 简单 的 方式 来 安装 Elasticsearch， 可 以 安 
装 Homebrew。Homebrew 安装 完毕 运行 如 下 命令 就 可 以 获得 
Elasticsearch: 


% brew install elasticsearch 


然后 ， 使 用 和 tar.gz 压 缩 包 类 似 的 方式 开始 启动 Elasticsearch: 


% elasticsearch 


3. ZIP 压 缩 包 


如 果 是 在 Windows 上 运行 ， 请 下 载 ZIP 压 缩 包 。 人 解压 后 ， 和 在 
UNIX 上 运行 Elasticsearch 差 不 多 ， 运 行 bin/ 目 永 中 的 elasticsearch.bat: 


% bin\elasticsearch.bat 


4. RPM 或 者 DEB 压 缩 包 


如 果 是 在 Red Hat Linux、CentOS、SUSE 或 任何 可 以 读 取 RPM 包 
的 系统 上 运行 ， 在 Debian、Ubuntu 或 任何 可 以 读 取 DEB 包 的 系统 上 运 
行 ，Elastic 同 样 也 提供 RPM 和 DEB 包 。 你 可 以 在 
www.elastic.co/guide/en/elasticsearch/reference/current/setup- 
repositories.html 学 习 如 何 使 用 它们 。 


安装 的 过 程 基 本 上 需要 将 安装 包 加 入 你 的 列表 中 ， 并 运行 安装 命 
令 。 一 旦 Elasticsearch 安 装 完 成 ， 可 以 通过 如 下 命令 局 动 它 : 


% systemctl start elasticsearch.service 


如 果 操 作 系统 没有 systemd 软 件 ， 请 使 用 : 


% /etc/init.d/elasticsearch start 


如 果 想 知道 启动 后 Elasticsearch 在 干什么 ， 请 查 
看 /var/log/elasticsearch/ 目 录 中 的 日 志文 件 。 如 果 是 通过 解压 TAR 或 ZIP 
压缩 包 来 安装 的 ， 你 应 该 在 解压 的 logs/ 目 录 中 可 以 找到 日 志文 件 。 


1.2.9 ”验证 是 否 工作 


现在 已 经 安装 并 启动 了 Elasticsearch， 我 们 来 看 看 启动 过 程 中 产生 
的 日 志 ， 并 首次 连接 REST API ° 


1. 查看 启动 日 志 


在 首次 运行 Elasticsearch 的 时 候 ， 用 户 会 看 到 一 系列 日 志和 条目， 告 
诉 用 户 发 生 了 什么 。 来 看 看 其 中 的 几 行 意味 着 什么 。 


第 一 行 通常 提供 了 局 动 让 点 的 统计 信息 


[node] [Karkas] version[1.4.0], pid[6011], build[bc94bd8/2014-11- 


05714: 26:12Z] 


默认 情况 下 ，Elasticsearch 为 下 点 随机 分 配 一 个 名 字 ， 在 这 个 例子 
中 是 Karkas ， 可 以 在 配置 中 修改 。 此 行 还 可 以 看 见 所 运行 的 特定 
Elasticsearch 版 本 号 细节 ， 然 后 是 所 启动 的 Java 进 程 PID。 


插件 在 初始 化 过 程 中 被 加 载 ， 殉 认 情 况 下 十 没有 插件 的 。 


[plugins] [Karkas] loaded [], sites [] 


天 于 插件 的 更 多 信息 ， 请 参见 附 隶 B。 
端口 9300 默 认 用 于 贡 点 之 间 的 通信 ， 称 为 transport: 


[transport] [Karkas] bound_address {inet[/0.0.0.0:9300]}, 


publish_address 
{inet[/192.168.1.8:9300]} 


如 果 使 用 本 地 Java API 而 不 是 REST API， 需 要 连接 这 个 端口 。 


FE R—47, UR 被 选举 出 来 ， 正 是 名 为 Karkas HPR: 


[cluster.service] [Karkas] new_master [Karkas][YPHC_vWiQVuSX- 
ZIJIIMhg][inet[/ 


192.168.1.8:9300]], reason: zen-disco-join (elected_as_master ) 


第 9 章 涵 盖 了 水 平 扩展 的 内 容 ， 我 们 在 第 9 章 讨论 主 节 点 的 选举 。 
基本 的 想法 古 每 个 集群 拥有 一 个 主 节 操 ， 人 负责 了 解 集群 中 有 了 哪些 证 点 
以 及 分 片 位 于 哪里 。 每 当主 市 点 失 联 ， 就 会 克 举 一 个 新 的 主 节 感 。 这 
个 例子 中 ， 你 启动 了 集群 中 的 第 一 个 节点 ， 所 以 它 也 是 主 节 后 。 


端口 9200 默 认 用 于 HTTP 的 通信 。 应 用 程序 使 用 REST API 时 连接 
这 个 端口 : 


[http] [Karkas] bound_address {inet[/0.0.0.0:9200]}, 
publish_address {inet[/ 
192.168.1.8:9200]} 


[node] [Karkas] started 


现在 ， 可 以 连接 到 该 节点 并 开始 发 送 请 求 


下 面 的 gateway 是 负责 将 数据 持久 化 到 磁盘 的 Elasticsearch 组 件 ， 
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[gateway] [Karkas] recovered [0] indices into cluster_state 


IIAL, gateway H 2 A fie RF ee GB Be TE eT 
存 过 ， 这 样 可 以 恢复 这 些 数据 。 目 前 这 个 例子 没有 索引 需要 恢复 。 


刚刚 看 的 这 些 日 志 中 ， 很 多 信息 都 是 可 以 配置 的 ， 从 市 点 名 称 到 
gateway 的 设置 。 随 着 全 书 内 容 的 展开 ， 我 们 会 谈论 配置 的 选项 和 相关 
的 概念 。 第 二 部 分 都 是 关于 性 能 和 管理 的 内 容 ， 其 中 会 看 到 配置 的 选 
竺 此 之 前 ， 无 需 过 多 的 配置 ， 因 为 默认 的 值 对 于 开发 者 而 言 非常 


默认 的 取 值 对 开发 者 过 于 友好 了 ， 以 至 于 在 同 个 多 播 网 络 中 的 另 一 台 计 算 机 上 ， 启 动 
一 个 新 的 Elasticsearch 实 例 时 ， 该 实例 会 和 第 一 个 实例 加 入 同一 个 集群 ， 可 能 会 导致 无 法 预 
| 见 的 结果 。 例 如 ， 分 片 从 一 个 节点 迁移 到 另 一 个 节点 。 为 了 防止 这 些 发 生 ， 可 以 在 
elasticsearch.yml 配 置 文件 中 修改 集群 的 名 称 ，2.5.1 节 会 演示 如 何 操作 。 


2. 使 用 REST API 


连接 REST API 最 从 单 的 方法 是 在 浏览 器 里 导航 到 
http://localhost:9200。 如 有 果 不 是 在 本 机 上 安装 Elasticsearch， 那 么 需 
localhost 替换 为 远程 机 器 的 卫 地 址 。Elasticsearch 默 认 监 听从 
9200 端 口 进入 的 HITP 请 求 。 如 果 请 求生 效 了 ， 用 户 应 该 获得 一 个 
JSON 应 答 ， 这 也 表明 Elasticsearch 正 常 工作 ， 如 图 1-6 所 示 。 


© localhost :920 


"status" : 200, 
“name" : "Karkas", 
“cluster_name" : “elasticsearch", 
"version" : sar 
“number” : "l. 
"build pi : “bcddbda1 208f81ces6a9abl ddddd30390356066"， 
"build timestamp”: “2014-11-05T14:26:1 
“build_snapshot" : false, 
"lucene_version™ : "4.10.2" 


“tagline” : "You Know, for Search" 


图 1-6 ”在 浏览 器 中 检阅 Elasticsearch 


1.3 小 结 


现在 一 切 设置 完毕 ， 让 我 们 回顾 一 下 本 章 讨论 的 内 容 : 


Elasticsearch 是 构建 在 Apache Lucene 基 础 之 上 的 开源 分 布 式 搜索 引 
ax o 


Elasticsearch 常 见 的 用 法 是 索引 大 规模 的 数据 ， 这 样 可 以 运行 全 文 
搜索 和 实时 数据 统计 。 
Elasticsearch 提 供 的 特性 远 远 超越 了 全 文 搜索 。 例 如 ， 你 可 以 调 优 
搜索 相关 性 并 提供 搜索 建议 。 

上 手 时 ， 移 下 载 压缩 包 ， 需 要 时 解压 它 ， 并 运行 Elasticsearch 启 动 


脚本 

对 于 数据 的 索引 和 搜索 ， 以 及 集群 配置 的 管理 ， 都 可 使 用 HTTP 
API 的 JSJON， 并 获得 JSON 应 答 。 

可 以 将 Elasticsearch 当 作 一 个 NoSQL 的 数据 存储 ， 包 括 了 实时 性 搜 
索 和 分 析 能 力 。 它 是 面向 文档 的 ， 默 认 情 况 下 就 是 可 扩展 的 。 
Elasticsearch 上 自动 将 数据 划分 为 分 请， 在 集群 中 的 服务 器 上 做 负载 
均衡 。 这 使 得 动态 添加 和 移 除 服务 器 变 得 很 容易 。 分 片 也 可 以 复 
制 ， 使 得 集群 具有 容错 性 。 


在 第 2 章 中 ， 读 者 将 通过 索引 和 搜索 真实 的 数据 ， 加 深 对 
Elasticsearch 的 了 解 。 


第 2 章 ”深入 功能 


本 章 主要 内 容 


定义 文档 、 类 型 和 索引 

理解 Elasticsearch 节 点 、 主 分 乒 和 副本 分 片 
通过 cURL 和 一 个 数据 集 来 索引 文档 

搜索 和 检索 数据 

设置 Elasticsearch 配 置 选项 

在 多 个 和 点 上 工作 


现在 你 知道 Elasticsearch 是 何 种 搜索 引擎 ， 在 第 1 草 中 也 看 到 了 它 
的 一 些 主要 特性 。 接 下 来 让 我 们 进入 实践 ， 看 看 它 是 如 何 完成 它 所 擅 
长 的 。 假 想 你 接受 了 一 项 任务 ， 需 要 创造 一 种 方法 ， 在 数 百 万 的 文档 
中 进行 搜索 。 例 如 ， 一 个 允许 人 们 构建 共同 兴趣 组 并 进行 聚会 (get 
together) 的 网 站 ， 文 档 可 以 是 聚会 分 组 (group) 或 单个 活动 
(event) 。 你 需要 以 容错 的 方式 来 实现 ， 而 且 随 着 站 点 越 来 越 成 功 ， 
搭建 的 系统 要 能 够 容纳 更 多 的 数据 和 并 发 的 搜索 。 


本 章 将 通过 Elasticsearch 数 据 组 织 的 解释 ， 来 展示 如 何 处 理 这 种 场 
~ ee 本 章 的 代码 样 例 ， 在 聚会 网 站 的 真实 数据 上 实践 
FR GIANT RR © 


所 有 的 操作 通过 cURL 完成 ， 这 是 一 个 小 而 美的 命令 行 工 具 ， 为 
HTTP 请 求 而 设计 。 稍 后 ， 如 有 果 需 要 ， 可 以 将 cURL 所 完成 的 内 容 翻 译 
成 你 喜欢 的 编程 语言 。 本 章 的 最 后 将 修改 配置 文件 ， 并 启动 新 的 
Elasticsearch 实 例 ， 这 样 束 可 以 在 多 节点 的 集群 上 进行 实验 。 


我 们 从 数据 的 组 织 开 始 。 为 了 理解 Elasticsearch 中 数据 是 如 何 组 织 
的 ， 从 以 下 两 个 角度 来 观 罕 。 


。 逻辑 设计 一 一 搜索 应 用 所 要 注意 的 。 用 于 索引 和 搜索 的 基本 单位 
古文 档 ， 可 以 将 其 认为 是 天 系数 据 库 里 的 一 行 。 文 档 以 类 型 来 分 
组 ， 类 型 包 售 若干 文档 ， 类 似 表格 包含 大 干 行 。 最 终 ， 一 个 或 多 


个 类 型 存在 于 同一 索引 中 ， 索 引 是 更 大 的 容 右 ， 类 似 SQL 世 界 中 
的 数据 库 。 

物理 设计 在 后 台 Elasticsearch 是 如 何 处 理 数 据 的 。 
Elasticsearch 将 每 个 索引 划分 为 分 片 ， 每 份 分 片 可 以 在 集群 中 的 不 
同 服务 器 间 迁 移 。 通 常 ， 应 用 程序 无 须 关 心 这 些 ， 因 为 无 论 
Elasticsearch 是 单 台 还 是 多 台 服 务 右 ， 应 用 和 Elasticsearch 的 交互 
基本 保持 不 变 。 但 是 ， 开 始 管理 集群 的 时 候 ， 束 需要 留心 了 。 UR 
物理 设计 的 配置 方式 决定 了 集群 的 性 能 、 可 扩展 性 和 可 用 


图 2-1 展 示 了 这 两 个 方面 。 


Elasticsearch Sl GR 节点 3 


应 用 视角 : 逻辑 设计 管理 者 视角 : 物理 设计 


图 2-1 ”从 应 用 和 管理 者 视角 分 另 


一 局 


看 Elasticsearch 集 群 


让 我 们 先 从 逻辑 设计 开始 ， 即 应 用 程序 的 视角 。 


2.1 理解 逻辑 设计 : 文档 、 类 型 和 索引 


当 索 引 Elasticsearch 里 的 一 篇 文档 时 ， 你 将 其 放 入 一 个 索引 中 的 一 


个 类 型 。 可 以 通过 图 2-2 理 解 这 个 想法 ， 其 中 聚会 索引 get-together 包 含 
两 种 类 型 :活动 (event) 和 分 组 (group) 。 这 些 类 型 包含 若干 文档 ， 
如 标记 为 1 的 文档 ， 标 签 1 是 该 文档 的 ID 。 


这 个 ID 不 必 非 要 是 个 整数 。 实 际 上 它 是 个 字符 串 ， 并 没有 限制 。 可 以 放置 任何 对 应 月 


有 意义 的 字符 。 


这 个 索引 一 类 型 一 ID 的 组 合 唯一 确定 了 Elasticsearch 中 的 某 篇 文 
档 。 当 进行 搜索 的 时 候 ， 可 以 查找 特定 索引 、 特 定 类 型 中 的 文档 ， 也 
可 以 跨 多 个 类 型 甚至 是 多 个 索引 进行 搜索 。 


现在 你 可 能 会 问 : 到 展 什 么 是 文档 、 类 型 和 索引 ? 这 正 是 接 下 来 
所 要 探讨 的 。 


索引 
/get-together/group/1 


四 
类 型 : 类 型 : 
event [group 


索引 索引 
/get-together/event/2 /get-together-blog/posts/4 


索引 名 称 + 
类 型 名 称 + 


文档 ID= 
唯一 确定 的 文档 


搜索 
/get-together/event 


图 2-2 Elasticsearch 数 据 的 逻辑 设计 : 应 用 程序 如 何 看 待 数据 


2.1.1 文档 


在 第 1 章 中 ， 我 们 提 过 Elasticsearch 是 面 回 文档 了 的， 这 意味 着 索引 
。 在 Elasticsearch 中 文 要 有 几 个 重要 的 属 


它 是 自我 包含 的 。 一 篇 文档 同时 包含 字段 (如 name ) 和 它们 的 
取 值 (如 Elasticsearch Denver) 。 

它 可 以 是 层次 型 的 。 想 象 一 下 ， 文 档 中 还 包含 新 的 文档 。 一 个 字 
段 的 取 值 可 以 是 简单 的 ， 例 如 ，1Location 字段 的 取 值 可 以 是 字 
符 串 。 字 段 还 可 以 包含 其 他 字段 和 取 值 ， 例 如 , “位 置 ?字段 可 以 
同时 包含 城市 和 街道 地 址 。 

它 拥有 有 灵活 的 结构 。 文 档 不 依赖 于 预先 定义 的 模式 。 例 如 ， 并 非 
所 有 的 活动 需要 “描述 ”这 个 字段 值 ， 所 以 可 以 彻底 忽略 该 字段 。 


但 是 ， 活 动 可 能 需要 新 的 字段 ， 如 “位 置 ?的 维度 和 经 度 。 


一 篇 文档 通常 是 数据 的 JSON 表 示 。 如 第 1 章 所 述 ， 和 Elasticsearch 
沟通 最 为 广泛 使 用 的 方式 是 HTTP 协 议 上 的 JSON， 这 也 是 全 书 使 用 的 
方法 。 举 个 例子 ， 在 聚会 网 站 的 一 项 活动 可 以 通过 如 下 文档 表达 。 


"name": "Elasticsearch Denver", 


"organizer": "Lee", 
"location": "Denver, Colorado, USA" 


在 全 书 中 ， 我 们 使 用 不 同 的 颜色 来 表示 JSON 文 档 的 字段 名 称 和 取 值 ， 使 得 其 可 读 性 
。 字段 名 称 是 深 灰 色 ， 取 值 是 浅 灰 色 。 


你 可 以 假象 一 张 表格 ， 拥 有 3 列 ， 即 姓名 (name) 、 组 织 


(organizer ) 和 位 置 (location) 。 文 档 可 以 是 包含 若干 取 值 
的 一 行 。 但 是 这 样 的 比较 不 够 精准 ， 它 们 还 是 有 所 差别 。 一 个 区 别 
aoo 文档 可 以 是 层次 型 的 。 例 如 ， 位 置 可 以 包含 姓名 

[0 地理 位 置 : 


"name": "Elasticsearch Denver", 
"organizer": "Lee", 
"location": { 
"name": "Denver, Colorado, USA", 
"geolocation": "39.7392, -104.9847" 


} 


} 


一 篇 单独 的 文档 也 可 以 包含 一 组 数值 ， 例 如 : 


{ 
"name": "Elasticsearch Denver", 


"organizer": "Lee", 
"members": ["Lee", "Mike" ] 


} 


Elasticsearch 中 的 文档 是 无 模式 的 hae AEA OCS ab is 
要 拥有 相同 的 字段 ， 它 们 不 古 受 限于 同一 个 模式 。 例 如 ， 在 所 有 信息 
完备 之 前 就 要 使 用 组 织 者 数据 时 ， 你 可 以 彻底 忽略 位 置 数 据 。 


"name": "Elasticsearch Denver", 
"organizer": "Lee", 
"members": ["Lee", "Mike" ] 
} 
尽管 可 以 随意 添加 和 忽略 字段 ， 但 是 每 个 字段 的 类 型 确实 很 重 
要 : 某 些 是 字符 串 ， 某 些 是 整数 ， 等 等 。 因 为 这 一 点 ，Elasticsearch 保 


存 字段 和 类 型 之 间 的 映射 以 及 其 他 设置 。 这 种 映射 具体 到 每 个 索引 的 
。 这 也 是 为 什么 在 Elasticsearch 的 术语 中 ， 类 型 有 时 也 称 为 映 


2.1.2 ”类 型 


KA ESIE ERA, RUTERE ETRA o EARE 
中 ， 最 好 放 入 不 同 结构 (模式 ) 的 文档 。 例 如 ， 可 以 用 一 个 类 型 定义 
聚会 时 的 分 组 ， 而 另 一 个 类 型 定义 人 们 参加 的 活动 。 


每 个 类 型 中 字段 的 定义 称 为 映射 。 例 如 ，name 字段 可 以 映射 为 
string。 而 location 中 的 geolocation 字段 可 以 映射 为 
geo_point 类 型 (附录 A 中 我 们 探讨 地 理 空间 数据 的 使 用 ) 。 每 种 字 
段 都 是 通过 不 同 的 方式 进行 处 理 。 例 如 ， 你 在 name 字段 中 搜索 关键 
词 ， 而 同时 通过 位 置 来 搜索 哪些 分 组 离 你 的 住址 很 近 。 


如 果 一 个 字段 不 是 JSON 文 档 的 根 节 点 ， 在 其 中 搜索 时 必须 指定 路 径 。 举 个 例子 ， 


location 中 的 geolocation 字段 被 称 为 location. geolocation ° 


你 可 能 会 问 到 : 如 果 Elasticsearch 是 无 模式 有 的， 那么 为 什么 每 个 文 
档 属 于 一 种 类 型 ， 而 且 每 个 类 型 包含 一 个 看 上 去 很 像 模式 的 映射 呢 ? 


我 们 说 “无 模式 ”是 因为 文档 并 不 受 模式 的 限制 。 它 们 并 不 需要 拥 
有 了 映 映 中 所 定义 的 所 有 字段 ， 也 可 能 提出 新 的 字段 。 这 是 如 何 运 作 
的 ? 首先 ， 英 射 包含 某 个 类 型 中 当前 索引 的 所 有 文档 的 所 有 字段 。 但 
是 不 是 所 有 的 文档 必须 要 有 所 有 的 字段 。 同 样 ， 如 果 一 篇 新 近 索 引 的 
文档 拥有 一 个 映射 中 尚 不 存在 的 字段 ，Elasticsearch 会 目 动 地 将 新 字段 
加 入 映射 。 为 了 添加 这 个 字段 ，Elasticsearch 不 得 不 确定 它 是 什么 类 
型 ， 于 是 Elasticsearch 会 进行 猜测 。 例 如 ， 如 果 值 是 7，Elasticsearch 会 
假设 字段 是 长 整 型 。 


这 种 新 字段 的 目 动 检测 也 有 缺点 ， 因 为 Elasticsearch 可 能 猜 得 不 
对 。 例 如 ， 在 索引 了 值 7 之 后 ， 你 可 能 想 再 索引 hello world, 这 时 
由 于 它 是 string 而 不 是 long ， 和 索引 就 会 失败 。 对 于 线 上 环境 ， 最 安 
全 的 方式 是 在 索引 数据 之 前 ， 束 定义 好 所 需 的 映射 。 第 3 草 会 讨论 更 多 
关于 映射 的 内 容 。 


映射 类 型 只 是 将 文档 进行 逻辑 划分 。 从 物理 角度 来 看 ， 同 一 索引 
中 的 文档 都 是 写 入 磁盘 ， 而 不 考虑 它们 所 属 的 映射 类 型 。 


2.1.3 索引 


索引 是 映射 类 型 的 容器 。 一 个 Elasticsearch 索 引 非 常 像 关 系 型 世界 
的 数据 库 ， 是 独立 的 大 量 文档 集合 。 每 个 索引 存储 在 磁盘 上 的 同 组 文 
件 中 ;索引 存储 了 所 有 映 映 类 型 的 字段 ， 还 有 一 些 设置 。 例 如 ， 每 个 
索引 有 一 个 称 为 refresh_interval 的 设置 ， 定义 了 新 近 索 引 的 文 
档 对 于 搜索 可 见 的 时 间 间 隔 。 从 性 能 的 角度 来 看 ， 刷 新 操作 的 代价 是 
非常 昂贵 的 ， 这 也 是 为 什么 更 新 只 是 偶尔 进行 。 默 认 是 每 秒 更 新 一 
次 ， 而 不 是 每 来 一 篇 新 的 文档 加 更 新 一 次 。 如 果 看 到 Elasticsearch 被 称 
为 准 实时 的 ， 束 是 指 的 这 种 刷新 过 程 。 


就 像 可 以 跨 多 个 类 型 进行 搜索 一 样 ， 你 可 以 跨 多 个 索引 进行 搜索 。 这 使 得 组 织 文档 的 

方式 更 为 灵活 。 例 如 ， 既 可 以 将 聚会 的 活动 和 相关 的 博客 帖子 放 入 不 同 的 索引 ， 也 可 以 将 

它们 放 入 同一 索引 中 的 不 同类 型 。 某 些 方式 比 其 他 的 方式 更 有 效 ， 取 决 于 具体 的 使 用 案 
例 。 第 3 章 将 讨论 更 多 用 于 高 效 索 引 的 数据 组 织 。 


T 


T 


一 个 具体 到 索引 的 设置 是 分 片 的 数量 。 第 1 章 展 示 了 索引 是 由 一 个 
或 多 个 称 为 分 片 的 数据 块 组 成 。 这 对 于 可 扩展 性 非常 有 益 : 可 以 在 多 
台 服 务 器 上 运行 Elasticsearch， 让 同一 个 索引 的 多 个 分 片 在 所 有 服务 器 
上 存活 。 接 下 来 让 我 们 仔细 看 看 Elasticsearch 中 的 分 片 是 如 何 工作 的 。 


2.2 ”理解 物理 设计 : DRAMA 


理解 数据 在 物理 是 如 何 上 组 织 的 ， 归 根 到 底 是 理解 Elasticsearch 是 
如 何 扩展 的 。 尽 管 第 9 章 是 专门 讨论 扩展 ， 在 本 节 中 ， 我 们 还 是 会 通过 
某 些 课题 来 介绍 扩展 是 如 何 运 作 的 ， 包 括 一 个 集群 中 多 个 节点 是 如 何 
工作 的 ， 数 据 是 如 何 被 划分 为 分 片 和 被 复制 的 ， 在 多 个 分 片 和 副本 分 
片上 索引 和 搜索 是 如 何 进行 的 。 


为 了 有 个 全 局 的 理解 ， 我 们 先 回 顾 一 下 在 Elasticsearch 索 引 创建 的 
时 候 ， 究 竟 发 生 了 什么 ? 默认 情况 下 ， 每 个 索引 由 5 个 主要 分 片 组 成 ， 
而 每 份 主要 分 片 又 有 一 个 副本 ， 一 共 10 份 分 片 ， 如 图 2-3 所 示 。 


ES 


| ARRSH 
| 是 一 份 主 分 片 
“的 副本 。 


| 
一 个 节点 是 | 
一 个 运行 | 
Elasticsearch: 
的 进程 。 | 


图 2-3 一 个 有 3 个 市 点 的 集群 ， 索 引 被 划分 为 5 份 分 片 ， 每 份 分 片 有 一 个 副本 分 片 


正如 后 面 将 展示 的 ， 副 本 分 片 对 于 可 靠 性 和 搜索 性 能 很 有 益处 。 
技术 上 而 言 ， 一 份 分 片 是 一 个 目录 中 的 文件 ，Lucene 用 这 些 文件 存储 
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的 最 小 单位 。 


2.2.1 创建 拥有 一 个 或 多 个 节点 的 集群 


一 个 节点 是 一 个 Elasticsearch 的 实例 。 在 服务 器 上 局 动 
Elasticsearch 之 后 ， 你 束 拥 有 了 一 个 节点 。 如 果 在 另 一 台 服 务 右 上 局 动 
Elasticsearch ， 这 束 是 另 一 个 下 点 。 甚 至 可 以 通过 局 动 多 个 
Elasticsearch 进 程 ， 在 同一 台 服 务 絮 上 拥有 多 个 广 点 。 


多 个 市 点 可 以 加 入 同一 个 集群 。 本 章 稍 后 将 讨论 使 用 同样 的 集群 
名 称 启动 玉 点 ， 男 外 默认 的 设置 也 足以 组 建 一 个 集群 。 在 多 节点 的 集 
群 上 ， 同 样 的 数据 可 以 在 多 台 服 务 器 上 传播 。 这 有 助 于 性 能 ， 因 为 
Elasticsearch 有 了 更 多 的 资源 。 这 同样 有 助 于 稳定 性 如 果 每 份 分 片 至 
少 有 1 个 副本 分 片 ， 那 么 任何 一 个 万 点 都 可 以 宕 机 ， 而 Elasticsearch 依 
然 可 以 进行 服务 ， 返 回 所 有 数据 。 对 于 使 用 Elasticsearch 的 应 用 程序 ， 
集群 中 有 1 个 还 是 多 个 下 点 都 是 透明 的 。 默 认 情 况 下 ， 可 以 连接 集群 中 
的 任 一 节点 并 访问 完整 的 数据 集 ， 就 好 像 集群 只 有 单独 的 一 个 万 点 。 


尽管 集群 对 于 性 能 和 稳定 性 都 有 好 处 ， 但 它 也 有 缺点 ;必须 确定 
节点 之 间 能 够 足够 快速 地 通信 ， 并 且 不 会 产生 大 脑 分 裂 (集群 的 2 个 音 
分 不 能 彼此 交流 ， 都 认为 对 方 客机 了 ) 。 为 了 解决 这 个 问题 ， 第 9 章 讨 
论 了 水 平 扩展 。 


1. 当 索 引 一 篇 文档 时 发 生 了 什么 


默认 情况 下 ， 当 索引 一 篇 文档 的 时 候 ， 系 统 首先 根据 文档 D 的 散 
列 值 选择 一 个 主 分 片 ， 并 将 文档 发 送 到 该 主 分 片 。 这 份 主 分 片 可 能 位 
TAT nS BUR AI2-44 IR EASE A, ANT Pe BPX 
一 点 是 透明 的 。 


将 文档 索引 
到 分 片 1 


Ak 
HAE ERKI 


中 索引 文档 


节点 2 


图 2-4 ”文档 被 索引 到 随机 的 主 分 片 和 它们 的 副本 分 片 。 搜 索 在 完整 的 分 片 集合 上 运行 ， 无 论 
它们 的 状态 是 主 分 片 还 是 副本 分 片 


然后 文档 被 发 送 到 该 主 分 片 的 所 有 副本 分 片 进行 索引 (参见 图 2-4 
的 左边 ) 。 这 使 得 副本 分 片 和 主 分 片 之 间 保 持 数据 的 同步 。 数 据 同步 
Eee til 以 服务 于 搜索 请 求 ， 并 在 原 有 主 分 片 无 法 访问 时 目 动 
级 为 主 分 片 。 


2. 搜索 索引 时 发 生 了 什么 


当 搜 索 一 个 索引 时 ，Elasticsearch 需 要 在 该 索引 的 完整 分 片 集合 
进行 查找 (参见 图 2-4 的 右边 ) 。 这 些 分 片 可 以 是 主 分 片 ， 也 可 以 是 副 
本 分 片 ， 原 因 是 对 应 的 主 分 乒 和 副本 分 片 通常 包含 一 样 的 文档 。 
Elasticsearch 在 索引 的 主 分 片 和 副本 分 片 中 进行 搜索 请 求 的 负载 均衡 ， 
使 得 副本 分 片 对 于 搜索 性 能 和 容错 都 有 所 帮助 。 


接 下 来 看 看 主 分 片 和 副本 分 厂 的 细 市 ， 以 及 它们 是 如 何在 
Elasticsearch 集 群 中 分 配 的 。 


2.2.2 ”理解 主 分 片 和 副本 分 片 


让 我 们 从 Elasticsearch 所 处 理 的 最 小 单元 ， 分 片 开始 。 一 份 分 斤 是 
Lucene 的 索引 : 一 个 包含 倒 排 索引 的 文件 目 示 。 倒 排 索 引 的 结构 使 得 


ElasticsearchZé StS PTA CISA TRL BRET TOR BREE SOS ae E 
定 的 词 条 (单词 ) o 


7 当 讨 论 Elasticsearch 的 时 候 ， 你 将 看 到 “索引 ”这 个 词 被 频繁 地 使 用 。 这 就 是 术语 的 使 


Elasticsearch 索 引 被 分 解 为 多 块 : 分 片 。 一 份 分 片 是 一 个 Lucene 的 索引 ， 所 以 一 个 
Elasticsearch 的 索引 由 多 个 Lucene 的 索引 组 成 。 这 是 合理 的 ， 因 为 Elasticsearch 使 用 Apache 
Lucene 作 为 核心 的 程序 库 进 行 数据 的 索引 和 搜索 。 


在 全 书 中 ， 每 当 你 看 到 “索引 "这 个 词 ， 它 是 指 Elasticsearch 的 索引 。 如 果 深 控 分 片 中 的 
节 ， 我 们 将 特别 地 使 用 “Lucene 索 引 ” 这 个 词 。 


在 图 2-5 中 ， 你 将 看 到 聚会 (get-together) 索引 的 首 个 主 分 片 可 能 
包含 何 种 信息 。 该 分 片 称 为 get-together0， 它 是 一 个 Lucene 索 引 、 一 个 
倒 排 索引 。 它 默认 存储 原始 文档 的 内 容 ， 再 加 上 一 些 额 外 的 信息 ， 如 
词 条 字典 和 词 频 ， 这 些 都 能 帮助 到 搜索 。 


一 份 分 片 是 一 个 Lucene 索 引 


倒 排 索引 


1 occurrence : idl->1 time 

3 occurrences : idl->1 time, id3->2 times 
5 occurrences: id2->2 times, id3->3 times 
2 occurrences: id2->2 times 


图 2-5 ”Lucene 索 引 中 的 词 条 字典 和 词 频 


词 条 字典 将 每 个 词 条 和 包含 该 词 条 的 文档 映射 起 来 (参见 图 2- 
5) 。 搜 索 的 时 候 ，Elasticsearch 没 有 必要 为 了 某 个 词 条 扫描 所 有 的 文 
档 ， 而 是 根据 这 个 字典 快速 地 识别 匹配 的 文档 。 


词 频 使 得 Elasticsearch 可 以 快速 地 获取 某 篇 文档 中 某 个 词 条 出 现 的 
次 数 。 这 对 于 计算 结果 的 相关 性 得 分 非常 重要 。 例 如 ， 如 果 搜 
索 “denver”， 包 含 多 个 “denver 的 文档 通常 更 为 相关 。Elasticsearch 将 给 
它们 更 高 的 得 分 ， 让 它们 出 现在 结果 列表 的 更 前 面 。 默 认 情 况 下 ， 排 


序 算法 是 TF-IDF， 在 第 1 章 1.1.2 节 有 所 阐述 。 但 是 可 以 有 更 多 的 先 
择 。 第 6 章 将 深入 讨论 搜索 相关 性 的 细节 。 


分 片 可 以 是 主 分 片 ， 也 可 以 是 副本 分 乒 ， 其 中 副本 分 片 是 主 分 片 


的 完整 副本 。 副 本 分 片 用 于 搜索 ， 或 者 是 在 原 有 主 分 片 丢 失 后 成 为 新 
ETAS 


Elasticsearch 索 引 由 一 个 或 多 个 主 分 片 以 及 零 个 或 多 个 副本 分 片 构 
成 。 在 图 2-6 中 ， 可 以 看 到 Elasticsearch 索 引 get-together 由 6 份 分 片 组 
成 ，2 份 主 分 片 ( 深 色 的 盒子 ) 和 4 份 副本 分 片 《小 色 的 盒子 ) ， 每 份 
主 分 片 有 2 个 副本 分 片 。 


索引 名 称 : get-together 
分 片 数 量 : 2 
每 份 分 片 的 副本 分 片 数量 : 2 


可 以 在 任何 时 候 改变 每 个 分 片 的 副本 分 片 的 数量 ， 因 为 副本 分 片 总 是 可 以 被 创建 和 移 
。 这 并 不 适用 于 索引 划分 为 主 分 片 的 数量 ， 在 创建 索引 之 前 ， 你 必须 决定 主 分 片 的 数 


Ha > 


请 记 住 ， 过 少 的 分 片 将 限制 可 扩展 性 ,但 是 过 多 的 分 片 会 影响 性 能 。 默 认 设置 的 5 份 
是 一 个 不 错 的 开始 。 第 9 章 全 部 讨论 扩展 性 ， 你 将 学 习 到 更 多 。 我 们 也 会 解释 如 何 动态 地 
添加 和 移 除 副本 分 片 。 


ee 


目前 所 看 到 的 所 有 分 片 和 副本 分 片 在 Elasticsearch 集 群 内 的 和 点 中 
分 发 。 接 下 来 看 些 细节 ， 关 于 Elasticsearch 如 何在 一 个 拥有 单个 或 多 个 
世上 点 的 集群 中 分 布 分 片 和 副本 分 片 。 


2.2.3 ”在 集群 中 分 发 分 片 


最 简单 的 Elasticsearch 集 群 只 有 一 个 节点 : 一 台 机 器 运行 着 一 个 
Elasticsearch 进 程 。 在 第 1 革 中 安装 并 启动 了 Elasticsearch 之 后 ， 你 就 已 
经 建立 了 一 个 拥有 单 和 点 的 集群 。 


随 看 越 来 越 多 的 广 点 被 添加 a 到 同一 个 集群 中 ， 现 有 的 分 片 将 在 所 
有 的 下 点 中 进行 负载 均衡 。 因 此 ， 在 那些 分 片上 的 索引 和 搜索 请 求 都 
可 以 从 额外 增加 的 节点 中 获 益 。 以 这 种 方式 进行 扩展 (在 节点 中 加 入 
更 多 节点 ) 被 称 为 水 平 扩展 。 此 方式 增加 更 多 节点 ， 然 后 请 求 被 分 发 
PIXE RE, LPR BRE T° OFT RIA MAT Be 
垂直 扩展 ， 这 种 方式 为 Elasticsearch 的 节点 增加 更 多 硬件 资源 ， 可 能 是 
为 虚拟 机 分 配 更 多 处 理 器 ， 或 是 为 物理 机 增加 更 多 的 内 存 。 尽 管 垂直 
扩展 几乎 每 次 都 能 提升 性 能 ， 它 并 非 总 是 可 行 的 或 经 济 的 。 使 用 分 厂 
使 得 你 可 以 进行 水 平 的 扩展 。 


假设 你 想 扩展 get-together 索 引 ， 它 有 两 个 主 分 片 ， 而 没有 副本 分 
片 。 如 图 2-7 所 示 ， 第 一 个 选项 是 通过 升级 节点 进行 垂直 扩展 ， 如 增加 
更 多 的 内 存 、 更 多 的 CPU、 更 快 的 磁盘 等 。 第 二 个 选项 是 通过 添加 世 
点 进行 水 平 扩展 ， 让 数据 在 两 个 节点 中 分 布 。 


节点 1 (升级 后 ) 


初始 设置 水 平 扩展 后 


图 2-7 为 了 提升 性 能 ， 可 以 垂直 扩展 ALA) 或 水 平 扩展 CA FA) 


第 10 划 中 将 讨论 更 多 关于 性 能 的 内 容 。 现 在 来 看 看 索引 和 搜索 是 
如 何在 多 个 分 片 和 副本 分 片 中 工作 的 。 


2.2.4 ”分布 式 索引 和 搜索 


你 可 能 好 奇 在 多 个 节点 的 多 个 分 片上 如 何 进行 索引 和 搜索 。 


看 看 岁 2-8 所 示 的 索引 。 接 受 索 引 请 求 的 Elasticsearch 点 首先 选 
PEMA RRS | BI Sa oo BRUSH, AEDA Py Soi. 对 于 每 篇 
文档 ， 分 片 是 通过 其 ID 字 符 串 的 散 列 决定 的 。 每 份 分 片 拥 有 相同 的 获 
列 范围 ， 接 收 新 文档 的 机 会 均等 。 一 旦 目标 分 片 确 定 ， 接 受 请 求 的 市 
扩 将 文档 转发 到 该 分 片 所 在 的 节点 。 随 后 ， 索 引 操 作 在 所 有 目标 分 片 
的 所 有 副本 分 斤 中 进行 。 在 所 有 可 用 副本 分 请 完成 文档 的 索引 后 ， 索 
引 命令 束 会 成 功 返 回 。 


将 文档 索引 
到 分 片 1 


get—together0 
(副本 分 片 ) 


get—together| 
(副本 分 片 ) 


节点 1 


图 2-8 ”索引 操作 被 转发 到 相应 的 分 片 ， 然 后 转发 到 它 的 副本 分 片 


在 搜索 的 时 候 ， 接 受 请 求 的 节点 将 请 求 转发 到 一 组 包含 所 有 数据 
的 分 片 。Elasticsearch 使 用 round-robin 的 轮 询 机 制 选择 可 用 的 分 片 ( 主 
分 片 或 副本 分 片 ) ， 并 将 搜索 请 求 转发 过 去 。 如 图 2-9 所 示 ， 
Elasticsearch 然 后 从 这 些 分 片 收集 结果 ， 将 其 聚集 到 单一 的 回复 ， 然 后 
将 回复 返回 给 客户 端 应 用 程序 。 


第 1 步 : 转发 请 求 第 2 步 : 聚集 结果 
搜索 聚集 的 
请 求 结果 
搜索 部 分 
请 求 结果 


get—together0 Partial get—together0 
(副本 分 片 ) results (副本 分 片 ) 
get-together] get-together1 
(副本 分 片 ) (副本 分 片 ) 


t 
J 
节点 2 节点 1 节点 2 


图 2-9 人 然后 聚集 结果 并 将 其 发 送 回 客 
端 


在 默认 情况 下 ， 搜 索 请 求 通过 round-robin 轮 询 机 制 选 中 主 分 请 和 
副本 分 片 ， 其 假设 集群 中 所 有 的 节点 是 同样 快 的 (同样 的 硬件 和 软件 


配置 ) 。 如 果 不 是 如 此 ， 可 以 组 织 数据 或 配置 分 片 ， 防 止 较 慢 的 节点 
成 为 瓶颈 。 第 9 章 会 探索 这 些 选 项 。 第 1 章 已 经 启动 了 单 世 点 的 
Elasticsearch 人 集群， 现在 开始 在 这 个 集群 上 索引 文档 。 


2.3 ”索引 新 数据 


尽管 第 3 章 会 深入 索引 的 细节 ， 这 里 的 目标 是 让 你 感受 一 下 ， 索 引 
是 什么 。 这 一 章 将 讨论 如 下 处 理 方法 。 
。 使 用 cURL 和 REST API， 发 送 JSON 文 档 让 Elasticsearch 进 行 索 引 。 


你 将 看 到 返回 的 JSON 应 答 。 
。 如 果 索 引 和 类 型 尚 不 存在 时 ，Elasticsearch 是 如 何 目 动 地 创建 文档 


所 属 的 索引 和 类 型 。 
。 通过 本 书 的 源码 索引 额外 的 文档 ， 这 样 你 可 以 拥有 一 个 用 于 搜索 


的 数据 集 。 


你 将 手动 索引 第 一 篇 文档 ， 一 开始 先 来 看 看 如 何 回 某 个 URI 发 送 
HTTP PUT 请 求 。URI 的 样 例如 图 2-10 所 示 ， 每 个 部 分 都 有 标注 。 


首先 过 一 过 如 何 发 送 这 个 请 求 。 


连接 的 端口 。 
使 用 的 协议 。HTTP Elasticsearch 
默认 就 是 支持 的 。 默认 监听 9200。 类 型 的 名 称 


http://localhost: 9200/get-together/group/1 


需要 连接 的 Elasticsearch 索引 的 名 称 文档 的 ID 
节点 主机 名 。 如 果 Elasti- 
csearch 部 署 在 本 机 ， 使 
用 localhost 


图 2-10 ”Elasticsearch 中 一 篇 文档 的 URI 


2.3.1 ”通过 cURL 索引 一 篇 文档 
对 于 本 书 中 多 数 的 代码 片段 ， 你 将 使 用 cURL 包 。cURL 是 一 个 命 
令 行 工具 ， 通 过 HTTP 协 议 传送 数据 。 使 用 curl 命令 发 送 HTTP 请 


求 ， 这 是 在 Elasticsearch 代 码 片段 中 使 用 cUREL 的 惯例 。 这 是 因为 很 容 
易 将 一 个 cURL 的 例子 翻译 成 为 任何 编程 语言 。 实 际 上 ， 如 果 在 
Elasticsearch 官 方 的 邮件 列表 上 请 求 帮助 ， 建 议 你 提供 一 个 curl 
recreation 重 现 问题 。Curl recreation 是 重 现 问题 的 命令 或 者 一 系列 curl 
命令 ， 任 何在 本 地 安装 了 Elasticsearch 有 的 人 都 可 以 运行 它 。 


k cURL 


如 果 运 行 UNIX 这 样 的 操作 系统 ， 如 Linux 或 Mac OS X， 你 可 能 已 经 拥有 curl 命令 
了 。 如 果 还 没有 ， 或 是 使 用 Windows 系 统 ， 可 以 从 网 上 下 载 。 还 可 以 安装 Cygwin， 然 后 选 
择 cURL 作 为 Cygwin 安 装 的 一 部 分 ， 这 也 是 我 们 推荐 的 方法 。 


在 Windows 系 统 上 使 用 Cygwin 运 行 cunl 命 令 是 更 佳 的 方式 ， 因 为 可 以 复制 、 烙 贴 在 
UNIX 类 系统 上 运行 的 命令 。 如 果 你 仍然 选择 使 用 Windows 命 令 环 境 ， 要 特别 注意 单 引 号 ， 
因为 它 在 Windows 上 表现 有 所 不 同 。 在 很 多 时 候 ， 必 须 将 单 引 号 (') 替换 为 双 引 号 〈") ， 
然后 用 反 斜 杠 进行 转 义 (") 。 例 如 ， 一 条 UNIX 命 令 看 上 去 是 


curl 'http://localhost' -d '{"field": "value"}' 


在 Windows 上 看 上 去 像 这 个 : 


curl "http://localhost" -d "{\"field\": \"value\"}" 


有 很 多 方法 来 使 用 curl 发 送 HITP 请 求 。 运 行 man cur 1 看 看 所 有 
的 用 法 。 全 书 使 用 如 下 的 cunl 用 法 惯例 。 


。 参数 -X 的 参数 值 是 方法 ， 通 常 是 GET 、PUT 或 POST 。 可 以 在 参 
数 和 参数 值 之 间 加 入 空格 ， 但 是 我 们 并 不 添加 。 例 如 ， 使 用 - 
XPUT 而 不 是 -X PUT 。 默 认 的 方法 是 GET ， 当 使 用 这 个 默认 值 时 
跳 过 整个 -X 参数 。 

。 在 URI 中 ， 跳 过 协议 的 指定 ， 永 远 是 http ， 在 没有 指定 协议 时 
curl 默 认 使 用 http ° 

。 在 URI 周 围 放置 单 引 号 ， 因 为 URI 可 以 包含 多 个 参数 。 而 且 必 须 使 
用 一 个 & 符号 分 割 不 同 参数 ， 通 常 后 端 来 处 理 这 些 。 

。 通 过 HTTP 发 送 的 数据 通常 是 JSON 格 式 ， 用 单 引 号 将 其 包围 因为 
JSON 本 身 包含 双 引 号 。 


如 果 JSON 本 身 需要 单 引号 ， 首 先 关闭 单 引号 ， 然 后 用 双 引 号 将 需 
要 的 单 引号 包围 ， 如 下 例 所 示 ; 


'{"name": "Scarlet O'"'"'Hara"}' 


为 了 一 致 性 ， 多 数 URL 将 会 被 单 引 号 包围 (除非 单 引号 使 用 影响 
了 转 义 ， 或 者 需要 使 用 双 引 号 引入 一 个 变量 ) 。 


用 于 HTTP 请 求 的 URL 有 时 包含 这 样 的 参数 : pretty=true 或 者 
仅仅 是 pretty 。 无 论 请 求 是 否 通过 curl 处 理 ， 我 们 使 用 后 者 。 默 认 的 
JSON 应 答 在 一 行 里 显示 ， 而 这 个 pretty 参数 使 得 JSON 应 答 看 起 来 
可 读 性 更 好 。 


如 果 你 更 喜欢 图 形 化 的 界面 ， 而 不 是 命令 行 ， 有 以 下 几 个 工具 可 使 用 。 


可 以 通过 Elasticsearch 插 件 的 形式 来 安装 这 个 工具 个 单机 
的 HTTP 服 务 器 ， 或 是 可 以 从 文件 系统 打开 的 网 页 。 可 以 从 那里 发 送 ETTP 请 求 但 
是 Head 作 为 监控 工 [ 具 是 最 有 用 的 ， 向 你 展示 集群 中 分 片 是 如 何 分 布 的 。 
ead 类 似 ， 对 于 监控 和 请 求 发 送 都 是 不 错 的 ， 这 个 工具 以 文 
件 系统 的 网 页 运行 ， 或 者 是 以 Elasticsearch 的 插件 运行 > Head lkop Esta L AWARE, 
所 有 的 对 比 可 能 也 很 快 过 时 。 
。 Mar 这 个 工具 是 Elasticsearch 的 监控 解决 方案 。 第 11 章 会 讨论 更 多 关于 监控 的 
话题 ， 都 是 有 关 集 群 的 管 管理 。 然 后 附录 D 将 描述 Marvel 这 样 的 监控 工具 。 现 在 ， 所 要 
记 住 的 是 Marvel 同 样 提供 图 形 化 的 方式 向 Elasticsearch 发 送 请 求 ， 称 为 Sense。 它 提供 
自动 完成 功能 ， 是 很 有 用 人 处 的 学 习 帮 手 。 请 注意 ， 尽 管 对 于 开发 而 言 是 免费 的 ， 
Marvel 是 商业 产品 。 


= 


假设 能 够 使 用 cur1l 命令 ， 并且 在 本 机 上 用 默认 配置 安装 了 
Elasticsearch， 就 可 以 使 用 如 下 命令 索引 第 一 个 聚会 分 组 的 文档 。 


% curl -XPUT 'localhost:9200/get-together/group/1?pretty' -d '{ 
"name": "Elasticsearch Denver", 


"organizer": "Lee" 
1 


应 该 获得 如 下 输出 。 


" : "get-together", 
" : "group", 
mam 


1 
"_ version" : 1, 
"created" : true 


回复 中 包含 索引 、 类 型 和 索引 文档 的 ID。 这 种 情况 指定 了 ID ， 不 
过 在 第 3 草 你 会 了 解 到 ， 也 有 可 能 要 依靠 Elasticsearch 来 生成 ID。 这 里 
还 获得 了 文档 的 版 本 ， 它 是 从 1 开始 并 随 着 每 次 的 更 新 而 增加 。 通 过 第 
3 章 你 将 了 解 更 新 操作 © 


现在 已 经 索引 了 第 一 篇 文档 ， 我 们 来 看 看 对 于 包含 这 篇 文档 的 索 
SIMRE, RERE TETA ° 


2.3.2 ”创建 索引 和 映射 类 型 


如 有 果 安 装 了 Elasticsearch， 并 运行 cur1 命令 来 索引 文档 ， 你 可 能 
好 奇 在 这 些 因 素 下， 为 什么 上 述 方法 还 能 生效 。 


索引 之 前 并 不 存在 。 并 未 发 送 任何 命令 来 创建 一 个 叫 作 get- 
together 的 索引 。 

轴 射 之 前 并 未 定义 。 没 有 定义 任何 称 为 group 的 映射 类 型 来 刻画 文 
档 中 的 字段 。 


这 个 curl 命令 之 所 以 可 以 奏效 ， 是 因为 Elasticsearch 自 动 地 添加 
T get-together 5, ## A Agroup2 A! GU FPS BTAV ERY ° BRN AL 
字符 串 字 段 的 定义 。 默 认 情 况 下 Elasticsearch 处 理 所 有 这 些 ， 使 得 你 无 
须 任 何事 先 的 配置 ， 就 可 以 开始 索引 。 如 果 需 要 ， 可 以 改变 默认 的 行 


为 ， 这 在 第 3 章 会 介绍 。 
1. 手动 创建 索引 
可 以 使 用 PUT 请 求 来 创建 一 个 索引 ， 和 索引 文档 的 请 求 类 似 : 


% curl -XPUT 'localhost:9200/new-index' 


{"acknowledged": true} 


创建 索引 本 吴 比 创建 一 篇 文档 要 花费 更 多 时 间 ， 所 以 你 可 能 想 让 
索引 事先 准备 就 绪 。 提 前 创建 索引 的 另 一 个 理由 是 想 指 定 和 
Elasticsearch 默 认 不 同 的 设置 ， 例 如 ， 你 可 能 想 确定 分 片 的 数量 。 我 们 
因为 通常 会 使 用 很 多 索引 来 作为 扩展 

STi 


2. 获取 映射 


之 前 提 到 ， 映 映 是 随 着 新 文档 而 目 动 创建 的 ， 而 且 Elasticsearch 目 
动 地 将 name 和 organizer 字 段 识别 为 字符 串 。 如 有 果 添 加 新 文档 的 同时 添 
a 的 字段 ，Elasticsearch 也 会 猜测 它 的 类 型 ， 并 将 其 附加 到 映 

为 了 查看 当前 的 上 映射， 发送 一 个 HTTP GET ` 请 求 到 该 索引 的 
_mapping 端点 。 这 将 展示 索引 内 所 有 类 型 的 映射 ， 但 是 可 以 通过 在 
_mapping 端 点 后 指定 类 型 的 名 字 来 获得 某 个 具体 的 上 映射。 


% curl 'localhost:9200/get-together/_mapping/group?pretty' 


"get-together" : { 
"mappings" : { 
"group" : { 
"properties" : { 
"name" : { 
"type" : "string" 


"organizer" : { 
"type" : "string" 


返回 的 结果 包含 如 下 的 相关 数据 。 


。 索引 名 称 get-together ° 

。 类 型 名 称 group。 

。 属性 列表 一 -name 和 organizer 。 

。 属性 选项 一 一 两 个 属性 的 type 选 项 都 是 string 。 


第 3 章 将 讨论 更 多 关于 索引 、 了 映射 和 映射 类 型 的 内 容 。 目 前 ， 先 定 
义 一 个 映 映 ， 然 后 通过 运行 本 书 代码 样 例 中 的 脚本 来 索引 一 些 文档 。 


2.3.3 ”通过 代码 样 例 索 引文 档 


在 探 客 被 索引 文档 上 的 搜索 之 前 ， 运 行 代 码 样 例 中 的 
populate.sh 脚本 进行 更 多 的 索引 。 这 将 提供 更 多 的 样 例 数据 ， 便 
于 之 后 的 搜索 。 


P 下 载 代码 


要 下 载 源码 ， 可 访 问 https:/github.comy/dakrone/elasticsearch-in-action， 然 后 遵循 
。 获 取 它 们 最 简单 的 方法 是 复制 如 下 仓库 。 


如 果 使 用 的 是 Windows 系 统 ， 最 好 先 从 安装 Cygwin。 在 安装 过 程 中 ， 将 git 和 cur1 
加 入 安装 包 的 列表 。 然 后 可 以 使 用 git 来 下 载 代码 样 例 和 运行 代码 的 bash 。 


这 个 脚本 首先 删除 所 创建 的 get-together 索 引 。 然 后 重新 生成 这 个 
索引 ， 并 创建 mapping.json 中 所 定义 的 映射 。 此 了 轴 射 文件 确定 了 之 前 没 


有 看 过 的 选项 ， 我 们 将 在 本 书 余下 的 部 分 (主要 是 第 3 章 ) 来 研究 它 
们 。 最 终 ， 脚 本 将 文档 索引 到 两 个 类 型 : 分 组 (group) 和 活动 
(event) 。 它 们 之 间 存 在 父子 关系 《活动 属 于 分 组 ) ， 第 8 章 会 探讨 
这 个 。 现 在 暂时 忽略 这 种 关系 。 
运行 populate.sh 脚 本 将 会 得 到 类 似 代码 清单 2-1 所 示 的 结果 。 
代码 清单 2-1 使 用 populate.sh 索 引文 档 


% ./populate.sh 
WARNING, this script will delete the 'get-together' index and re- 


index all data! 
Press Control-C to cancel this operation. 
Press [Enter] to continue. 


运行 这 个 脚本 后 ， 你 将 拥有 少量 的 分 组 和 为 这 些 分 组 而 计划 的 活 
动 。 来 看 看 如 何在 这 些 文档 上 进行 搜索 。 


2.4 搜索 并 获取 数据 


你 可 能 已 经 想到 ， 搜 索 时 有 很 多 选项 。 毕 竞 ， 搜 索 征 Elasticsearch 
的 最 终 目 标 。 


第 4 章 将 介绍 搜索 最 常见 的 方法 。 第 6 章 将 讨论 获取 相 
述 搜索 性 能 的 更 多 内 容 。 


为 了 近 距 离 地 观察 组 成 常见 搜索 的 模块 ， 搜 索 包 
含 “elasticsearch” 关 键 词 的 分 组 (group) ， 但 是 仅仅 获取 最 相关 文档 的 
name 和 1location 字段 。 代 码 清单 2-2 展 示 了 GET 请 求 和 响应 结果 。 


代码 清单 2-2 ”在 group 中 搜索 "elasticsearch>” 


% curl "localhost :9200/get-together/group/_search?\ 
q=elasticsearch <---URL 指出 在 何 处 进行 查询 : 在 gettogether 索 引 的 group 
类 型 中 

&fields=name, location\ <---URI 参数 给 出 了 搜索 的 细节 : 发现 包 


舍 “elasticsearch 的 文档 ， 但 是 只 返回 排名 靠 前 结果 的 name Allocation 字段 
&Size=1\ 
&pretty"—- - -以 可 读 性 更 好 的 格式 输出 JSON 应 管 


通常 ， 一 个 查询 在 某 个 指定 字段 上 运行 ， 如 
dq=name:elasticsearch ， 但 是 在 这 个 例子 中 并 没有 指定 任何 字 


段 ， 因 为 我 们 想 在 所 有 字段 中 搜索 。 实 际 上 ，Elasticsearch 默 认 使 用 一 
个 称 为 _all 的 字段 ， 其 中 索引 了 所 有 字段 的 内 容 。 第 3 章 会 讨论 
字段 的 更 多 内 容 ， 现 在 只 需要 知道 这 样 一 个 查询 没有 使 用 任何 
一 个 显 式 的 字段 名 称 。 
在 第 4 章 中 我 们 将 查看 搜索 的 更 多 方面 ， 这 里 先 仔细 看 看 一 个 搜索 
的 3 个 重要 组 成 部 分 。 


。 在 哪里 搜索 。 
内 容 。 


e HEH 
。 搜 索 什么 以 及 如 何 搜索 。 
2.4.1 在 哪里 搜索 


可 以 告诉 Elasticsearch 在 特定 的 类 型 和 特定 索引 中 进行 查询 ， 如 代 
码 清 单 2-2 所 示 。 但 是 也 可 以 在 同一 个 索引 的 多 个 字段 中 搜索 、 
索引 中 搜索 或 是 在 所 有 的 索引 中 搜索 。 


为 了 在 多 个 类 型 中 搜索 ， 使 用 逗号 分 隔 的 列表 。 例 如 ， 为 了 同时 
在 group 和 event 类 型 中 搜索 ， 运 行 如 下 类 似 的 命令 : 


% curl "localhost:9200/get-together/group,event/_search\ 


?q=elasticsearch&pretty" 


通过 向 索引 ULR 的 _search 端点 发 送 请 求 ， 可 以 在 革 个 索引 的 多 
个 类 型 中 搜索 : 


% curl 'localhost:9200/get-together/_search?q=sample&pretty' 


MIRAMAR, ATESTARSPRR, A Soe: 


% curl "localhost :9200/get-together, other-index/_search\ 


?q=elasticsearch&pretty" 


如 果 没 有 事先 创建 other -Index， 这 个 特定 的 请 求 将 会 失败 。 
为 了 忽略 这 种 问题 ， 可 以 像 添 加 pretty 旗 标 那 样 添加 
T 弃 标 。 为 了 在 所 有 的 索引 中 搜索 ， 彻 底 省 略 
索引 的 名 称 : 


% curl 'localhost:9200/_search?q=elasticsearch&pretty' 


如 果 需 要 在 所 有 索引 内 搜索 ， 也 可 以 使 用 名 为 _al1l 的 占 位 符 作 为 索引 的 名 称 。 当 需 
要 在 全 部 索引 中 的 同一 个 单独 类 型 中 进行 搜索 时 ， 这 一 点 就 派 上 用 场 了 ， 就 像 这 个 例子 : 
http://localhost: 9200/_all/event/_search ° 


这 种 关于 “在 哪里 搜索 ”的 灵活 性 ， 人 允许 你 在 多 个 索引 和 类 型 中 组 
织 数 据 ， 具 体 的 方式 取决 于 哪 种 对 于 你 的 使 用 案例 更 有 意义 。 例 如 ， 
日 志 事 件 经 常 以 基于 时 间 的 索引 来 组 织 ， 好 比 "logs-2013-06-03”“1ogs- 
2013-06-04” 等 。 这 种 设计 意味 着 当天 的 索引 是 很 热门 的 : 所 有 新 的 事 
件 集中 在 这 里 ， 并 且 多 数 的 搜索 也 集中 在 最 近 的 数据 上 。 热 门 的 索引 
只 包含 所 有 数据 的 一 部 分 ， 使 得 处 理 变 得 更 容易 、 更 快速 。 如 果 需 
要 ， 仍 然 可 以 在 旧 的 数据 或 全 量 数据 里 搜索 。 在 第 二 部 分 你 将 发 现 更 
多 关于 这 种 设计 模式 的 内 容 ， 学 到 更 多 关于 扩展 、 人 性 能 和 管理 的 细 


aH 


TY O 


2.4.2 ”回复 的 内 容 


除了 和 搜索 条 件 匹 配 的 文档 ， 搜 索 答 复 还 包 侣 其 他 有 价值 的 信 
思 ， 用 于 检 难 搜索 的 性 能 或 结果 的 相关 性 。 


你 可 能 对 于 代码 清单 2-2 有 些 疑 问 ，Elasticsearch 的 回复 包含 什 
A? TARRA? 如 果 有 部 分 分 斤 不 可 用 会 发 生 什 么 ? 看 看 代码 清 
单 2-3 展 示 的 回复 ， 包 括 其 中 每 一 个 部 分 。 


代码 清单 2-3 ”搜索 回复 ， 返 回 了 一 个 单独 结果 文档 的 两 个 字段 


"took" : 2, 
"timed_out" : false, =---- 你 的 请 求 耗 时 多 久 ， 以 及 它 是 否 超时 
"_shards" : { 

"total" : 2, ~---- 查 询 了 多 少 分 片 

"successful" : 2, 

"failed" : 0 


"total" : 2, 
"max_score" : 0.9066504, -~--- 所 有 匹配 文档 的 统计 数 
"hits" : [ { 


"index" : "get-together", =- - -R 
"type" g "group", 
W id" 7 3 
"score" : 0.9066504, 
"fields" : { 
"location" : [ "San Francisco, California, USA" ], 
"name" : [ "Elasticsearch San Francisco" | 


正如 你 说 见 ，Elasticsearch 的 JSON 应 答 包 含 了 所 要 求 的 信息 ， 包 
括 时 间 、 分 片 、 命 中 统计 数据 、 文 档 等 。 在 这 里 逐个 来 了 解 一 下 。 


1. 时 间 


回复 的 首 个 项 目 看 上 去 像 这 样 : 


"took" : 2, 


"timed_out" : false, 


其 中 took 字段 告诉 你 Elasticsearch 化 了 多 久 处 理 请 求 ， 时 间 单 位 是 这 
秒 ， 而 time_out 字段 表示 搜索 请 求 是 否 超时 。 默 认 情况 下 ， 搜 索 永 


远 不 会 超时 ， 但 是 可 以 通过 timeout 参数 来 设 定 限制 。 例 如 ， 下 面 的 
搜索 在 3 秒 后 超时 : 


% curl "localhost:9200/get-together/group/_search\ 
?q=elasticsearch\ 


&pretty\ 
&timeout=3s" 


QRS RENT, timed_outHfaiiztrue, mA REIRIS E 
时 前 所 收集 的 结 


2. 分 片 


回复 的 下 一 个 部 分 是 关于 搜索 相关 的 分 片 信和 已 : 


" shards" : { 
"total" : 2, 


"successful" : 2, 
"failed" : 0 


这 一 点 看 上 去 很 目 然 ， 因 为 你 在 一 个 拥有 2 份 分 片 的 索引 中 搜索 。 
所 有 的 分 片 都 有 返回 ， 所 以 成 功 (successful) 的 值 是 2， 而 失败 
(failed) 的 值 是 0。 


你 可 能 好 奇 ， 当 一 个 节点 宕 机 而 且 一 份 分 片 无 法 回复 搜索 请 求 
时 ， 都 会 发 生 些 什么 ? 请 看 图 2-11， 展 示 了 一 个 拥有 3 个 节点 的 集群 
每 个 节点 只 有 一 份 分 片 且 没有 副本 分 片 。 如 果 某 个 节点 宕 机 了 ， 就 会 
丢失 某 些 数据 。 在 这 种 情形 下 ，Elasticsearch 提 供 正常 分 片 中 的 结果 ， 
并 在 failed 字段 中 报告 不 可 搜索 的 分 片 数量 。 


搜索 搜索 响应 : 
HR 成 功 的 分 片 : 2 
g 失败 的 分 片 : 1 


在 分 片 0 oe 
中 搜索 
| 分 片 2 
| RAM) 
节点 3 
节点 1 (不 可 用 ) 


图 2-11 仍然 可 用 的 分 片 将 返回 部 分 结果 


命中 统计 数据 


回复 的 最 后 一 项 组 成 元 素 是 hits ， 这 项 相当 长 因为 它 包含 了 匹 
配 文档 的 数组 。 但 是 在 数组 之 前 ， 它 包含 了 几 项 统计 数据 ; 


"total" : 2, 
"max_score" : 0.9066504 


总 体 而 言 ， 你 将 看 到 匹配 文档 的 总 数 ， 而 且 通 过 max_score 会 
看 到 这 些 匹配 文档 的 最 高 得 分 。 


搜索 返回 的 文档 得 分 ， 是 该 文档 和 给 定 搜索 条 件 的 相关 性 衡量 。 如 第 1 章 提 到 的 ， 得 
分 默认 是 通过 TF-IDF ( 词 频 - 逆 文 档 频率 ) 算法 进行 计算 的 。 词 频 意味 着 对 于 搜索 的 每 个 
词 条 (单词) ， 其 在 某 篇 文档 中 出 现 的 次 数 越 多 则 该 文档 的 得 分 就 越 高 。 逆 文档 频率 意味 
着 如 果 该 词 条 在 整个 文档 集合 中 出 现在 越 或 少 的 文档 中 则 该 文档 得 分 越 高 ， 原 因 是 我 们 会 认 
为 词 条 和 这 篇 文档 的 相关 度 。 如果 词 条 经 常 在 其 他 文档 中 出 现 ， 它 可 能 就 是 一 个 常见 
词 ， 相 关 性 更 低 。 第 6 章 将 展示 如 何 让 搜索 的 结 朱 更 为 相关 


文档 的 总 数 和 回复 中 的 文档 数量 可 能 并 不 匹配 。 。Elasticsearch 默 认 
限制 结果 数量 为 10， 所 以 如 果 结 果 多 于 10 个 ， 请 查看 total 字段 的 


值 ， 以 获取 匹配 搜索 条 件 之 文档 的 精确 数量 。 之 前 我 们 介绍 了 ， 使 用 
size 参数 来 修改 返回 的 结 采 数量 。 


4. 结果 文档 


这 里 hits 数组 通 冲 是 回复 中 最 有 意思 的 信息 : 


"hits" : [ { 
"_index" : "get-together", 
"_type" à "group", 
"jg" : m3") 
"_ score" : 0.9066504, 


"fields" : { 
"location" : [ "San Francisco, California, USA" ], 
"name" : [ "Elasticsearch San Francisco" | 


}] 


其 中 展示 了 每 个 匹配 文档 所 属 的 索引 和 类 型 、 它 的 ID 和 它 的 得 分 ， 也 
展示 了 在 搜索 查询 中 所 指定 之 字段 的 数值 。 代 码 清单 2-2 使 用 了 
fields=name, location。 如 果 不 指定 需要 哪些 字段 ， 会 展示 
_Ssource 字 段 。 和 _al1 一 样 ，_source 是 一 个 特殊 的 FEX, 
Elasticsearch 默 认 在 其 中 存储 原始 的 JSON 文 档 。 可 以 配置 在 该 源 中 存 
储 哪 些 内 容 ， 第 3 章 会 探讨 这 些 。 


LE 


还 可 以 使 用 源 过 滤 ， 限 制 原始 文档 (source) 中 哪些 字段 需要 展示 。 具 体 的 解释 参 
JLwww.elastic.co/guide/en/elasticsearch/reference/master/search-request-source-filtering.html ° 
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2.4.3 ”如 何 搜索 


目前 为 止 ， 你 已 经 通过 URI 请 求 进行 了 搜索 ， 之 所 以 这 么 说 是 因 


为 所 有 的 搜索 选项 都 是 在 URI 里 设置 。 对 于 在 命令 行 上 运行 的 简单 搜 


索 而 言 ，URI 请 求 非常 檬 ， 但 是 将 其 认 作 一 种 捷径 更 为 妥当 。 


通常 ， 要 将 查询 放 入 组 成 请 求 的 数据 中 。Elasticsearch 人 允许 使 用 
JSON 格 式 指定 所 有 的 搜索 条 件 。 当 搜索 变 得 越 来 越 复杂 的 时 候 ， 
JSON 更 容易 读 写 ， 并 日 提供 了 更 多 的 功能 。 


为 了 发 送 JSON 碍 询 来 搜索 所 有 关于 Elasticsearch 的 分 组 
(group) ， 可 以 这 样 做 : 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"query_string": { 


"query": "elasticsearch" 


在 目 然 语 言 中 ， 它 可 以 翻译 为 “运行 一 个 类 型 Aquery_string 
的 查询 ， 字 符 串 内 容 是 elasticsearch”。 可 能 看 上 去 这 样 输 入 
elasticsearch 过 于 公式 化 ， 但 这 是 因为 JSON 提 供 更 多 选项 而 不 仅 
仅 是 URI 请 求 。 在 第 4 章 中 ， 你 将 看 到 当 开 始 综 合 不 同类 型 的 查询 时 ， 
使 用 JSON 的 查询 就 变 得 非常 有 意义 : 在 一 条 URI 中 塞 进 所 有 这 些 选 项 
会 变 得 越 来 越 难以 处 理 。 这 里 来 探究 一 下 每 个 字段 。 


1. 设置 查询 的 字符 串 选 项 


在 上 述 JSON 请 求 的 最 后 一 级 有 "query": "elasticsearch" 
， 你 可 能 认为 "query" 部 分 是 多 余 的 ， 因 为 已 经 知道 它 就 是 一 个 查 
询 。 这 里 query_string 提 供 了 除 字 符 串 之 外 的 更 多 选项 。 


例如 ， 如 果 搜 索 “elasticsearch san Francisco”，Elasticsearch 默 认 查 
询 _al1 字 段 。 如 果 想 在 分 组 的 名 称 里 查询 ， 需 要 指定 : 


"default_field": "name" 


同样 ，Elasticsearch 默 认 返 回 匹配 了 任 一 指定 关键 词 的 文档 (默认 
的 操作 符 是 OR ) 。 如 果 和 希望 匹配 所 有 的 关键 词 ， 需 要 指定 : 


"default_operator": "AND" 


修改 后 的 查询 看 上 去 是 下 面 这 样 的 : 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"query_string": { 
"query": "elasticsearch san francisco", 
"default_field": "name", 


"default_operator": "AND" 


获得 同样 结果 的 另 一 种 方法 是 在 查询 字符 串 中 指定 字段 和 操作 
FF: 


"query": "name:elasticsearch AND name:san AND name:francisco" 


查询 字符 串 是 指定 搜索 条 件 的 强大 工具 。 Elasticsearch 分 析 字符 串 
并 理解 所 查找 的 词 条 和 其 他 选项 ， 如 字段 和 操作 符 ， 然 后 运行 查询 。 
这 项 功能 是 从 Lucene 继 承 而 来 。 


2. 选择 合适 的 查询 类 型 


如 果 query_string BIWWRBELECMER, STH BED 
有 很 多 其 他 类 型 的 查询 ， 第 4 章 会 介绍 其 中 的 大 部 分 。 例 如 ， 如 果 在 
name 字段 中 只 查找 “elasticsearch” 一 个 词 ，term 查询 可 能 更 快捷 、 更 
直接 。 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"term": { 


"name": "“elasticsearch" 


3. 使 用 过 滤器 


目前 为 止 ， 你 所 见 到 的 搜索 请 求 都 是 查询 。 查 询 返 回 的 结果 中 ， 
每 个 结果 都 有 一 个 得 分 。 如 来 对 得 分 不 感 兴趣 ， 可 以 使 用 过 滤 查 询 来 
蔡 代 。 第 4 章 将 讨论 更 多 关于 过 滤 查 询 的 内 容 。 但 古 关 键 的 点 在 于 过 渡 
只 天 心 一 条 结 采 是 否 匹配 搜索 条 件 。 因 此 ， 对 比 相应 的 查询 ， 过 滤 得 
询 更 为 快速 ， 而 且 更 容易 缓存 。 


例如 ， 下 面 的 过 滤 查 询 在 分 组 group 文 档 中 查找 词 


条 “elasticsearch”: 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"filtered": { 
"filter": { 
"term": { 
"name": "elasticsearch" 


返回 的 结 来 和 同样 词 条 的 查询 相同 ， 但 是 结果 没有 根据 得 分 来 排序 


(因为 所 有 的 结果 得 分 都 是 1.0) 。 
4. MARE 
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集 ， 在 这 里 先 看 个 简单 的 例子 。 


假设 一 个 用 户 正 在 访问 聚会 网 站 ， 并 且 想 探索 各 种 已 有 的 分 组 。 
你 可 能 想 展 示 分 组 的 组 织 者 是 谁 。 例 如 ， 如 果 在 结果 中 显示 “Lee” 是 7 
项 会 议 的 组 织 者 ， 一 位 认识 Lee 的 用 户 可 能 点 击 他 的 名 字 ， 仪 仅 沛 选 出 
这 7 项 会 议 。 


为 了 返回 分 组 的 组 织 者 ， 你 可 以 使 用 词 条 聚集 (terms 
aggregation) 。 这 会 展示 指定 字段 中 出 现 的 每 个 词 之 计数 器 ， 在 这 个 
例子 中 吏 是 组 织 者 。 聚 集 可 能 看 上 去 像 下 面 这 样 : 


% curl localhost:9200/get-together/group/_search?pretty -d '{ 
"aggregations" : { 
"Organizers" : { 


"terms" : { "field" : "organizer" } 


在 自然 语言 中 ， 这 个 请 求 可 以 翻译 为 : “给 我 一 个 名 为 
organizers 的 聚集 ， 类 型 是 terms ， 并 且 查 找 organizer F 


段 。” 下 面 的 结果 展示 在 回复 的 抵 部 : 


"aggregations" : 
"Organizers" : 
"buckets" : [ { 
"key" : "lee", 
"doc_count" : 2 


} 


Ti 
"key" i "andy", 
"doc_count" : 1 


结果 表明 ， 在 总 共 6 个 词 条 中 “lee MENT 2K, “andy” h 
次 ， 等 等 。 有 两 个 分 组 是 Lee 来 组 织 的 。 然 后 可 以 搜索 Lee 作 为 组 织 
的 分 组 ， 进 一 步 缩 小 结果 集合 。 


有 了 时 由 于 你 并 不 清楚 需求 是 什么 ， 从 而 无 法 搜索 想 要 的 。 这 个 时 
候 ， 育 集 是 很 有 用 处 的 。 现 在 有 哪些 分 组 ? 住所 附近 举行 了 哪些 活 
动 ? 可 以 使 用 聚集 来 钻 取 可 用 的 数据 ， 并 获得 实时 的 统计 数据 。 


有 时 面临 相反 的 场景 。 你 明确 地 知道 需要 什么 ， 而 且 根 本 不 想 运 
行 一 次 搜索 。 这 个 时 候 通 过 ID 检索 文档 殉 很 有 用 处 。 


2.4.4 通过 ID 获取 文档 


为 了 获取 一 个 具体 的 文档 ， 必 须要 知道 它 所 属 的 索引 和 类 型 ， 以 
及 它 的 ID。 然 后 就 可 以 发 送 HTTP GET 请 求 到 这 篇 文档 的 URI: 


% curl 'localhost:9200/get-together/group/1?pretty' 


"index" : "get-together", 
"type" : "group", 

" jd" : i 

"_version" : 1, 

"found" : true, 

"source" : { 

"name": "Denver Clojure", 
"organizer": ["Daniel", "Lee"] 


回复 包括 所 指定 的 索引 、 类 型 和 ID。 如 果 文 档 存 在 ， 你 会 发 现 
found 字段 的 值 是 true ， 此 外 还 有 其 版 本 和 源 。 如 果 文 档 不 存在 ， 
found 字段 的 值 是 false : 


% curl 'localhost:9200/get-together/group/doesnt-exist?pretty' 
{ 


"index" : "get-together", 
"type" : "group", 


"_ id" : "doesnt-exist", 
"found" : false 


可 能 如 你 所 期 ， 通 过 ID 获得 文档 要 比 搜索 更 快 ， 所 消耗 的 资源 成 

本 也 更 低 。 这 也 是 实时 完成 的 ， 只 要 一 个 索引 操作 完成 了 ， 新 的 文档 

忠 可 以 通过 GET API 获 取 。 相 比 之 下 ， 搜 索 是 近 实 时 的 ， 因 为 它们 需 
等 得 默认 情况 下 每 秒 进行 一 次 的 刷新 操作 。 


现在 你 已 经 看 到 了 如 何 操 作 所 有 的 基本 API 请 求 ， 再 来 看 看 如 何 
改变 一 些 基本 的 配置 选项 。 


[1] ”由 于 原始 的 回复 内 容 太 长 ， 不 便于 阅读 ， 这 里 展示 的 只 是 部 分 
结果 共 取 。 因 此 没有 看 到 所 有 6 NAR, PZ BATA 
译 者 ; 


2.5 配置 Elasticsearch 


Elasticsearch 的 一 个 强项 是 ， 它 的 默认 配置 对 程序 员 非 常 友好 ， 入 
门 非常 容易 。 如 前 面 的 章节 介绍 ， 你 无 须 任何 配置 的 修改 ， 束 可 以 在 
自己 的 测试 服务 器 上 进行 索引 和 搜索 。Elasticsearch 目 动 地 创建 索引 ， 
并 检测 文档 中 新 字段 的 类 型 。 


Elasticsearch 也 可 以 轻松 地 、 高效 地 扩展 ， 当 处 理 大 量 的 数据 或 者 
请 求 的 时 候 ， 这 一 点 是 非常 重要 的 特性 。 本 章 的 最 后 部 分 将 启动 第 2 个 
Elasticsearch 实 例 ， 加 上 第 1 章 已 经 启动 的 实例 ， 我 们 将 组 建 一 个 集 
群 。 这 样 ， 你 会 看 到 Elasticsearch 是 如 何 进行 水 平 扩展 的 ， 以 及 如 何 将 
数据 在 集群 中 分 发 。 


尽管 无 须 任何 配置 修改 就 可 以 进行 水 平 扩展 ， 这 个 部 分 仍 将 调整 
儿 个 配置 ， 避 人 免 加 入 第 2 个 市 点 时 产生 意外 。 你 将 在 3 个 不 同 的 配置 文 
件 中 做 出 如 下 修改 。 


。 在 elasticsearch.yml 中 指定 集群 的 名 称 
项 所 在 的 主要 配置 文件 。 

。 在 logging.yml 中 编辑 日 志 选 项 一 一 日 志 配 置 文件 包括 log4j 的 日 志 
选项 ，Elasticsearch 使 用 这 个 库 来 记录 日 志 。 

。 在 环境 变量 或 elasticsearch.in.sh 中 调整 内 存 设置 一 一 这 个 文件 用 于 
配置 Elasticsearch 所 运行 的 Java 虚 拟 机 (JVM) ° 


这 是 Elasticsearch 具 体 选 


还 有 很 多 选项 ， 后 面 列 出 的 都 是 经 常 使 用 的 ， 我 们 将 在 其 出 现时 
做 一 些 介绍 。 接 下 来 逐个 看 看 这 些 配置 的 修改 。 


2.5.1 ”在 elasticsearch.yml 中 指定 集群 的 名 称 


解压 tar.gz 或 ZIP 压 缩 包 后 ， 可 以 在 其 config/ 目 录 中 找到 
Elasticsearch 的 主要 配置 文件 。 


Bt: 
CRE 


是 通过 RPM 或 DEB 包 安装 的 ， 文 件 在 /etc/elasticsearch/ 中 。 


Nm 


如 


就 像 REST API， 配 置 文件 可 以 是 JSON 或 YAML 格 式 。 和 REST 


API 有 所 不 同 ， 配 置 文件 最 流行 的 格式 是 YAML。 这 种 格式 的 阅读 和 理 
解 更 为 容易 ， 本 书 中 所 有 的 配置 样 例 都 是 基于 elasticsearch.yml。 


默认 情况 下 ， 新 的 节点 通过 多 播发 现 已 有 的 集群 一 一 通过 加 所 有 
主机 发 送 ping 请 求 ， 这 些 主机 侦 听 某 个 特定 的 多 播 地 址 。 如 果 发 现 新 
的 集群 而 且 有 同样 的 集群 名 称 ， 新 的 节点 就 会 将 加 入 他 们 。 你 需要 害 
制 化 集群 的 名 称 ， 防 止 默认 配置 的 实例 加 入 到 你 的 集群 。 为 了 修改 集 
称 ， 在 elasticsearch.yml 中 解除 clustername 这 一 样 的 注释 ， 并 修改 


cluster.name: elasticsearch-in-action 


在 更 新 文件 之 后 ， 按 下 Control 一 C 停 止 Elasticsearch， 然 后 使 用 下 
面 的 命令 重新 启动 它 : 


bin/elasticsearch 


| 如 果 已 经 索引 了 一 些 数 据 ， 你 可 能 注意 到 使 用 新 集群 名 称 重 启 Elasticsearch 之 后 ， 就 没 
| 有 任何 数据 了 。 文 是 因为 数据 存储 的 目 孙 包含 集群 的 名 称 ， 所 以 可 以 将 集群 名 称 改 回去 然 
后 再 次 重启 ， 找 回 之 前 索引 的 数据 。 现 在 ， 可 以 重新 运行 代码 样 例 中 的 populate.sh 脚 本 ， 
将 样 例 数据 再 次 写 入 。 


2.5.2 ”通过 logging.yml 指 定 详 细 日 志 记 录 


当 发 生 一 些 错 误 的 时 候 ， 应 用 日 志 是 查找 线索 的 首选 。 当 你 只 十 


想 看 看 发 生 了 些 什 么 的 时 候 ， 日志 同样 很 有 用 处 。 如 有 果 需 要 查看 
Elasticsearch 的 日 志 ， 默 认 的 位 置 在 解压 zip 或 tar.gz 包 后 的 logs/ 目 录 。 


过 RPM 或 DEB 包 安装 的 ， 默 认 的 路 径 是 /var/log/elasticsearch/。 


Elasticsearch 日 志 记 录 通 过 3 类 文件 组 织 。 


。 主要 日 志 (cluster-name. 一 一 在 这 里 将 发 现 Elasticsearch 运 行 
时 所 发 生 一 切 的 综合 信息 。 例 如 ， 某 个 查询 失败 或 一 个 新 的 万 点 
加 入 集群 。 

。 [27220  (cluster-name_index_search_slowlog.log) 一 一 当 某 个 
查询 运行 得 很 慢 时 ，Elasticsearch 在 这 里 进行 记录 。 默 认 情 况 下 ， 
如 果 一 个 查询 花费 的 时 间 多 于 半 秒 ， 将 在 这 里 写 入 一 条 记录 。 

。 慢 索引 日 志 (cluster-name_index_indexing_slowlog.log) 一 一 这 和 
慢 搜索 日 志 类 似 ， 默 认 情 况 下 ， 如 果 一 个 索引 操作 花费 的 时 间 多 
于 半 秒 ， 将 在 这 里 写 入 一 条 记录 。 


ee J oe 用 log4j , logging.yml'F 
的 配置 选项 是 用 于 这 个 日 志 工 具 。 


和 其 他 设置 一 样 ， 日 志 的 默认 选项 是 合理 的 。 但 是 ， 假 设 需要 详 

最 佳 的 第 一 步 是 是 修改 rootLogger ， 它 将 影响 所 有 的 

日 志 * 现在 我 们 还 是 使 用 默认 值 ， 但 是 如 果 想 让 Elasticsearch 记 录 所 有 
的 事情 ， 需 要 这 样 修改 Iogging.yml 的 第 一 行 : 


rootLogger: TRACE, console, file 


日 志 的 级 别 默认 是 INFO ， 将 会 写 入 所 有 严重 级 别 是 INFO 或 更 高 
的 事件 。 


2.5.3 ”调整 JVM 设置 


作为 Java 的 应 用 程序 ，Elasticsearch 在 一 个 JVM 中 运行 。JVM 和 物 
理 机 器 相似 ， 拥 有 上 自己 的 内 存 。JVM 有 其 自己 的 配置 ， 而 其 最 为 重要 
的 一 点 是 有 多 少 内 存 可 以 使 用 。 选 择 正 确 的 内 存 设置 对 于 Elasticsearch 
的 性 能 和 稳定 性 而 言 非常 重要 。 


Elasticsearch 使 用 的 大 部 分 内 存 称 为 “ 推 ” (heap) 。 默 认 的 设置 让 
Elasticsearch 为 扒 分 配 了 256 MB 初始 内 存 ， 然 后 最 多 扩展 到 1 GB。 如 
果 搜 索 和 索引 操作 需要 多 于 1 GB 的 内 存 ， 那 些 操 作 将 会 失败 ， 而 且 在 
日 志 中 会 发 现 超 出 内 存 (out-of-memory) 错误 。 反 之 ， 如 果 在 只 
256 MB 内 存 的 设备 上 运行 Elasticsearch， 上 默认 的 设置 可 能 就 分 配 了 太 
多 的 内 存 。 


为 了 修改 默认 的 值 ， 可 以 使 用 ES_HEAP_SIZE 环 境 变量 。 可 以 在 


启动 Elasticsearch 之 前 ， 通 过 命令 行 设置 。 


在 类 UNIX 的 系统 上 ， 使 用 export 命令 : 


export ES_HEAP_SIZE=500m; bin/elasticsearch 


在 Windows 系 统 上 ， 使 用 SET 命令 : 


SET ES_HEAP_SIZE=500m & bin\elasticsearch.bat 


BS TKR EB HTAV), ta ER 
bin/elasticsearch.in.sh (Windows 系 统 上 是 elasticsearch.bat) 脚本 。 在 文 
件 的 开始 部 分 ， 在 #!1/bin/sh 后 面 加 入 ES_HEAP_SIZE=500m ° 


如 


果 是 通过 DEB 包 安装 的 Elasticsearch， 则 在 /etc/default/elasticsearch 中 修改 这 些 
如 果 是 通过 RPM 包 安装 的 ， 则 可 以 在 /etc/sysconfig/elasticsearch? 


0 和 置 同样 的 设置 。 


= 


在 本 书 的 范围 内 ， 默 认 的 数值 应 该 足够 了 。 如 果 运 行 更 多 的 测 


试 ， 可 能 需要 分 配 更 多 的 内 存 。 如 有 果 在 一 台 内 存 少 于 1 GB 的 机 器 上 
将 这 so FINE (E21 200n 左右 应 该 束 可 以 了 。 


在 服务 器 上 只 运行 Elasticsearch， 刚 开始 将 ES_HEAP_SIZE 设置 为 内 存 总 量 的 
半 。 如 果 其 他 的 应 用 程序 需要 很 多 内 存 ， 尝 斌 将 这 个 值 设 置 的 更 小 。 男 一 半 内 存 用 于 操作 
系统 的 缓存 ， 可 以 更 快速 地 访问 所 存储 的 数据 。 除 了 这 个 近似 的 预 估 ， 你 必 须 运行 一 些 测 
试 ， 同 时 监控 集群 ， 看 看 Elasticsearch 需 要 多 少 内 存 。 本 书 的 第 二 部 分 将 讨论 更 多 关于 性 能 
调 优 和 监控 的 内 容 。 


I | 


现在 ， 你 已 经 亲手 修改 了 Elasticsearch 配 置 文件 的 选项 ， 也 已 经 索 
引 并 搜索 了 一 些 数据 ， 党 试 到 了 Elasticsearch 的 “弹性 ?部 分 : 扩展 的 方 
式 。 (第 9 章 将 深入 探讨 。) 现在 可 以 在 单 节 点 上 运行 所 有 章 的 样 例 ， 
BEN SRA REMASTER, 你 需要 在 同一 个 集群 中 加 入 更 多 的 
HAO. 


2.6 TERR PMAT A 


第 1 章 解压 了 tar.gz 或 ZIP 包 ， 并 局 动 工 间 个 Elasticsearch 实 例 o 这些 
创建 了 一 个 由 他 点 的 集群 。 在 加 入 第 2 个 市 点 之 前 ， 要 检查 集群 的 状 
态 ， 来 看 看 目前 的 数据 是 如 何 分 配 的 。 可 以 使 用 一 个 图 形 化 的 工具 

(如 Elasticsearch kopf 或 Elasticsearch Head) 来 实现 ， 之 前 在 索引 文档 
时 我 们 有 所 提 及 〈 参 见 2.3.1T) 。 图 2-12 展 现 了 kopf 中 的 集群 。 


get-together 


t shards: 2 * 2 | docs: 20 | size: 22.80KB 
D a w y“ ; 


* Hammond, Jim 

B me Iss 1. E E] 
ssas wg 

U 

oO load: 0.22 heap: 


@ unassigned shards 


W 
En 


图 2-12 7£Elasticsearch kopf 中 展现 的 单 节 点 集 


如 果 这 两 个 插件 都 没有 安装 ， 可 以 从 Cat Shards API 获 取 大 部 分 的 


aA: 


% curl 'localhost:9200/_cat/shards?v' 

index shard prirep state docs store ip node 
get-together 0 p STARTED 12 15.1kb 192.168.1.4 
Hammond, Jim 


get-together UNASSIGNED 

get-together STARTED 11.4kb 192.168.1.4 
Hammond, Jim 

get-together UNASSIGNED 


多 数 Elasticsearch API 会 返回 JSON， 但 是 Cat 文 组 API 是 特例 ， 而 Cat Shards API 
中 一 个 。 还 有 很 多 其 他 API， 它 们 对 于 获取 集群 某 个 时 间 点 的 相关 信息 很 有 帮助 ， 其 格式 
BA ay J 言 都 是 很 容易 解析 的 。 第 11 章 会 讨论 更 多 关于 Cat APNR, HA 
AIL AS E TE 


无 论 何 种 方法 ， 都 将 看 到 如 下 信息 。 


。 集群 的 名 称 ， 正 如 之 前 在 elasticsearch.yml 中 定义 的 。 

°. 只 有 1 个 节点 。 

。 get-together 索 引 有 2 个 主 分 睛 ， 而 且 是 激活 的 。 未 分 配 的 分 斤 代 表 
组 副本 分 片 。 因 为 只 有 1 个 节点 ， 所 以 这 些 副 本 


未 分 配 的 副本 分 片 导致 集群 状态 变 为 黄色 。 这 意味 着 所 有 主 分 片 
都 环绕 了 ， 但 是 并 非 所 有 副本 分 片 都 整 绕 了 。 如 采 主 分 片 缺 失 ， 集 群 


束 会 显示 红色 ， 以 提示 至 少 有 1 个 索引 是 不 完整 的 。 如 采 所 有 的 副本 分 
片 都 被 分 配 了 ， 集 群 就 是 绿色 的 ， 以 提示 所 有 一 切 都 在 正常 工作 。 


2.6.1 Bo SIR 


从 另 一 个 不 同 的 终端 ， 运 行 binyelasticsearch 或 者 elasticsearch.bat。 
这 会 在 同一 台 机 器 上 启动 另 一 个 Elasticsearch 实 例 。 通 常 需要 在 不 同 的 
机 器 上 启动 新 的 节点 ， 来 充分 利用 额外 的 处 理 能 力 ， 不 过 现在 你 将 在 
本 地 运行 所 有 的 实例 。 


在 新 节点 的 终端 或 者 日 志文 件 中 ， 将 看 到 开头 如 下 的 一 行 输 出 : 


[INFO ][cluster.service ] [Raman] detected_master [Hammond, 


Jim] 


其 中 Hammond， Jim 是 第 一 个 市 后 的 名 字 。 第 二 个 节操 通过 多 播 
侦 测 到 第 1 个 节点 ， 并 加 入 集群 。 第 1 个 下 点 也 是 集群 的 主 世 点 
(master) ， 这 意味 着 它 将 负责 保存 集群 中 有 哪些 节点 、 分 片 位 于 哪 
里 等 这 样 的 信息 。 这 种 信息 称 为 集群 状态 (cluster state) ， 并 被 复制 
。 如 采 主 节点 宕 机 ， 集 群 将 会 选举 出 另 一 个 节点 替代 原 有 
» TWA o 


如 有 果 看 一 下 图 2-13 中 的 集群 状态 ， 会 发 现 这 组 副本 分 片 被 分 配 到 
新 的 方 点 ， 使 得 整个 集群 变 为 绿色 。 


get-together 
shards: 2 "2 | doc 


D ĉ H Yy > s: 20 | size: 22.80KB 
= £ 2 o P 


Hammond, Jim 加 E 

net[/192.168.1.5:9300] 

DSSau0 &1 CABS OLU 26g 

load: 0.19 heap: / 

yy Raman | [ | 

BB etl/192.168.1.5:9301] — 
Ure SSA XSYMOPU CIALAN 

oO 


load: 0.19 heap: / 


@ unassigned shards 


图 2-13 ”副本 分 片 被 分 配 到 第 二 个 节点 


如 果 这 两 个 节点 分 别 部 闭 在 不 同 的 机 右上 ， 你 整 已 经 拥有 容错 的 
集群 了 ， 能 比 以 前 处 理 更 多 的 并 发 搜索 。 可 是， 如 采 需 要 更 强 的 索引 
性 能 ， 或 是 需要 处 理 更 海量 的 并 发 搜索 ， 叉 该 如 何 呢 ? 更 多 的 节点 一 
定 会 有 所 帮助 。 


读者 可 能 已 经 注意 到 第 1 个 厄 点 在 某 台 机 器 上 启动 后 ， 该 机 器 监听 9200 端 口 并 处 理 


用 端口 9201、9202 等 。 对 于 节点 之 间 的 通 
用 1 等 。 需 要 在 防火 墙 里 设置 允许 访问 这 些 端 口 。 可 以 在 
| elasticsearch.yml 中 的 Network 和 HTTP 部 分 修改 监听 的 地 址 。 


2.6.2 ”增加 额外 的 节点 


如 果 再 次 运行 bin/elasticsearch 或 者 elasticsearch.bat， 添 加 第 3 个 、 
第 4 个 节点 ， 你 将 看 到 它们 通过 多 播 侦 测 主 闻 点 ， 然 后 以 同样 的 方式 加 
入 集群 。 此 外 ， 如 图 2-14 所 示 ，get-together 索 引 的 4 份 分 片 自动 地 在 集 
群 中 进行 负载 均衡 。 


现在 ， 你 可 能 好 奇 如 果 再 增加 更 多 的 节点 ， 还 会 发 生 什 么 。 默认 
情况 下 什么 都 不 会 发 生 ， 因 为 总 共 只 有 4 份 分 片 ， 不 可 能 分 发 到 多 于 4 
个 的 节点 上 。 也 融 是 说 ， 如 采 需 要 扩展 ， 有 以 下 几 个 选项 。 


G get-together get-together 
shards: 2 " 2 | docs: 20 | size shards; 2 * 2 | docs: 20 | size: 22.78KE 
D w & ‘ Dm ŻW 
=e F 2 so £/ z ° ~ 8 

% Hammond, Jim %& Hammond, Jim 
Æ iratiy192.168.1.5:0300) 加 BB 92168.1.5:9900] E 

ossammtcopmo aug besaomooro oua 
© load: 0.18 heap: © load: 0.17 heap: 
“r Gypsy Moth 回 vv Dredmund Druid 
a noet{/192.168.1.5:9302] (=) inet{/ 192.168. 1.5:900G) 
Taner TARAS Se sen Seca 9 
© load: 0.18 heap: O a nes 
vy Raman vy Gypsy Moth 加 
Æ elt92.168.1.5:9301] BB matt! 192.168.1.5:9302] 

axsvmoprueana AALTO 
© O oc: 0.17 heap 
@ unassigned shards vw Raman 
E retl/192.168.1.5:9901] 


2-14 Elasticsearch 在 成 长 的 集群 中 自动 地 分 配 分 片 


修改 副本 分 请 的 数量 。 副 本 分 片 可 以 动态 的 更 新 ， 但 是 这 种 扩展 
方式 只 能 增加 集群 对 于 并 发 搜索 的 处 理 量 ， 因 为 搜索 请 求 以 
round-robin 的 轮 询 方式 ， 被 发 送 到 同一 分 片 的 多 个 副本 。 索 引 性 
能 仍然 保持 不 变 ， 因 为 新 的 数据 必须 被 所 有 分 片 处 理 。 同 样 ， 单 
个 的 搜索 将 在 单独 的 一 组 分 上 请 上 运行 ， 所 以 增加 副本 分 搬 不 会 有 
tr ZH Bh 有 * 

创建 拥有 更 多 分 片 的 索引 。 这 意味 着 重新 索引 数据 ， 因 为 主 分 片 
的 数量 无 法 动态 修改 。 

增加 更 多 的 索引 。 某 些 数据 很 容易 被 设计 为 使 用 多 索引 的 模式 。 


第 9 章 将 讨论 水 平 扩展 的 这 些 模 式 。 现 在 ， 可 以 将 3 个 新 增 的 节操 


关闭 ， 将 事情 简单 化 。 可 以 每 次 关闭 一 个 节点 直到 最 初 的 状态 ， 并 观 
察 分 片 的 目 动 化 负载 均衡 。 如 采 一 次 性 将 它们 都 关闭 了 ， 第 1 个 节操 只 
会 保持 1 份 分 片 ， 还 没 来 得 及 获取 余下 的 数据 。 这 种 情况 下 ， 可 以 再 次 
运行 populate.sh， 这 将 重新 索引 所 有 的 样 例 数据 。 


2.7 ”小结 


这 里 回顾 一 下 ， 本 章 中 你 学 习 到 了 什么 。 
Elasticsearch 默 认 是 面向 文档 的 、 可 扩展 的 且 没 有 固定 模式 


(schema) 的 。 

尽管 可 以 使 用 默认 设置 来 组 建 集群 ， 但 在 继续 前 行 之 前 至 少 应 该 
调整 一 些 配置 。 例 如 ， 集 群 的 名 称 和 堆 的 大 小 。 

索引 请 求 在 主 分 厂 中 分 发 ， 然 后 复制 到 这 些 主 分 片 的 副本 分 片 。 
搜索 通过 round-robin 的 轮 询 机 制 在 多 组 完整 数据 上 执行 ， 每 组 数 
据 由 主 分 片 或 副本 分 片 组 成 。 接 收 搜索 请 求 的 和 节点 将 来 和 目 多 份 分 
片 的 部 分 结果 进行 聚集 ， 然 后 将 绿 合 的 结果 返回 给 应 用 程序 。 
客户 端 应 用 程序 可 能 并 不 知道 每 份 索引 的 分 片 本 质 或 是 集群 看 上 
去 是 怎样 的 。 它 们 只 关心 索引 、 类 型 和 文档 的 ID。 它 们 使 用 REST 
API 来 索引 和 搜索 文档 。 


。 可 以 通过 HTTP 请 求 的 JSON 有 效 载 何 ， 发 送 新 的 文档 和 搜索 参 


数 ， 然 后 获取 JSON 应 答 。 


在 下 一 章 ， 读 者 将 学 习 在 Elasticsearch 中 有 效 组织 数 据 的 所 需 基 
础 ， 学 会 文档 中 可 以 拥有 哪些 类 型 的 字段 ， 并 熟悉 所 有 关于 索引 、 更 
新 和 删除 的 选项 。 


PI RS > aM RAE 


本 章 主要 内 容 


。 使 用 映射 类 型 来 定义 同一 个 索引 中 的 多 种 文档 类 型 
。 可 以 在 映射 中 使 用 的 不 同 字段 类 型 

。 使 用 预定 义 的 字段 及 其 选项 

。 上 述 这 些 如 何 帮 助 数 据 的 索引 、 更 新 和 删除 


本 章 内 容 是 关于 如 何在 Elasticsearch 中 存 入 和 获取 数据 ， 并 且 维 护 
这 些 数据 : 索引 、 更 新 和 删除 文档 。 在 第 1 章 中 ， 你 了 解 到 
Elasticsearch 是 基于 文档 的 ， 而 文档 是 由 字段 和 其 值 组 成 的 ， 这 些 使 得 
文档 是 目 我 完备 的 ， 束 好 像 一 张 数据 表 中 有 行 和 列 一 样 。 在 第 2 章 中 ， 
你 看 到 可 以 通过 Elasticsearch 的 REST API 来 索引 一 篇 文档 。 这 里 ， 我 
们 将 观察 文档 中 的 字段 以 及 它们 所 包含 的 内 容 ， 来 深入 理解 索引 过 程 
的 细节。 例如 ， 当 索引 一 篇 这 样 的 文档 时 : 


{"name": "Elasticsearch Denver"} 


FH FElasticsearch Denver 是 一 个 字符 串 ， 所 以 name 字 段 
是 字符 串 类 型 。 其 他 的 字段 可 能 是 数值 型 、 布 尔 型 等 。 本 章 将 介绍 以 
下 3 种 类 型 的 字段 。 


。 核心 这 些 字段 包括 字符 串 和 数值 型 。 

。 数组 和 多 元 字段 这 些 字段 在 某 个 字段 中 存储 相同 核心 类 型 的 
多 个 值 。 例 如 ，tags 字 段 可 以 拥有 多 个 标签 。 

。 预 定义 一 一 这 些 字段 包括 _tt1l (缩写 的 字母 代表 “time to live”) 
All_timestamp ° 


可 以 认为 这 些 字 段 是 元 数据 ，Elasticsearch 会 目 动 地 管理 它们 ， 提 
供 更 多 额外 的 功能 。 举 例 来 说 ， 可 以 配置 Elasticsearch， 让 其 目 动 地 将 
新 数据 加 入 文档 集合 〈 如 时 间 戳 ) ， 或 者 可 以 使 用 _tt1 字段 让 过 期 
的 文档 上 自动 被 删除 。 


已 经 知道 了 文档 中 可 以 有 的 字段 类 型 ， 以 及 如 何 索引 这 些 字 ae 
现在 我 们 将 看 看 如 何 更 新 已 经 存在 的 文档 。 鉴 于 存储 数据 的 方式 ， 
Elasticsearch 更 新 现存 文档 的 时 候 ， 它 会 检索 出 这 篇 文档 ， pears 
求 进 行 修 改 。 然 后 Elasticsearch 再 次 索引 更 改 后 的 文档 ， 并 删除 相应 的 
上 昌文 档 。 这 些 更 新 操作 会 引起 并 发 问题 ， 你 将 看 到 如 何 通 过 文档 版 本 
目 动 地 解决 这 些 问 题 。 你 还 将 看 到 删除 文档 的 不 同方 法 ， 某 些 方法 比 
其 他 的 运行 速度 更 快 。Elasticsearch 索 引 使 用 的 主要 程序 库 是 Apache 
Lucene，Lucene 在 磁盘 上 存储 数据 的 特殊 方法 又 导致 了 这 些 差 异 。 


先 从 索引 开始 ， 看 看 如 何 管理 文档 中 的 字段 。 你 已 经 在 第 2 章 中 了 
解 到 字段 是 在 映射 中 定义 的 ， 所 以 在 深入 理解 如 何 操作 每 种 类 型 的 字 
段 之 前 ， 移 来 了 解 大 体 上 如 何 操作 映射 。 


3.1 使 用 映射 来 定义 各 种 文档 


每 篇 文档 属于 一 种 类 型 ， 而 每 种 类 型 属于 一 个 索引 。 从 数据 的 逻 
辑 划分 来 看 ， 可 以 认为 索引 是 数据 库 ， 而 类 型 是 数据 库 中 的 表 。 例 
如 ， 第 2 章 介绍 了 聚会 网 站 的 分 组 和 活动 使 用 了 不 同 的 类 型 ， 因 为 它们 
拥有 不 同 的 数据 结构 。 注意 一 下 ， 如 果 这 个 站 点 也 有 博客 ， 可 能 要 将 
博客 生子 和 评 ， 从 保存 在 分 开 的 索引 中 ， 因 为 它们 古 完 全 不 同 的 数据 


T 


RAE TAR A TS Ben cE Mo RASE T ARAG E 
可 能 出 现 的 所 有 字段 ， 并 告诉 Elasticsearch 如 何 索引 一 篇 文档 的 多 个 字 
段 。 例 如 ， 如 果 一 个 字段 包含 日 期 ， 可 以 定义 哪 种 日 期 格式 是 可 以 接 


受 的 。 


在 Elasticsearch 中 ， 不 问 关 型 的 文档 没有 LeS 离 。 在 同一 个 Elasticsearch 索 引 中 


的 所 有 文档 ， 无 论 何 种 类 型 ， 都 是 存储 在 所 分 片 的 同一 组 文件 中 。 一 份 分 片 就 是 
T 索引 ， as 类 型 的 名 称 是 Lucene 索 引 af an 所 有 映射 的 所 有 字段 都 是 Lucene 
5 字段 。 


类 型 的 概念 是 针对 Elasticsearch 的 一 层 抽象 ， 但 不 属于 Lucene。 这 使 得 你 可 以 轻松 地 在 
同一 个 索引 中 拥有 不 同类 型 的 文档 。 Elasticsearch 负 责 分 离 这 些 文档 ， 例如 ， 在 某 个 类 型 中 
搜索 时 ，Elasticsearch 会 过 滤 出 属于 那个 类 型 的 文档 


这 种 方法 产生 了 一 个 问题 : 当 多 个 类 型 中 出 现 同样 的 字段 名 称 时 ， 两 个 同名 的 字段 应 
该 有 同样 的 设置 。 和 否则，Elasticsearch 将 很 难 辨别 你 所 指 的 是 两 个 字段 中 的 哪 一 个 。 最 后 ， 
两 个 字段 都 是 属于 同一 个 Lucene 索 引 。 例 如 ， 如 果 在 分 组 和 活动 文档 中 都 有 一个 name 字 
段 ， 两 个 都 应 该 是 字符 串 类 型 ， 不 能 是 字符 串 而 另 一 个 是 整数 类 型 。 在 实际 使 用 中 ， 
这 种 问题 很 少见 是 还 是 需要 记 住 ; 这 一 点 防止 意外 发 生 。 


Tos 


在 图 3-1 中 ，group (分 组 ) 和 event (活动 ) 存储 在 不 同 的 类 型 
中 。 然 后 应 用 程序 可 以 在 特定 的 类 型 中 搜索 ， 如 活动 。Elasticsearch 也 


允许 每 次 在 多 种 类 型 中 搜索 ， 其 至 是 在 搜索 时 仅仅 指定 索引 的 名 称 ， 
这 样 束 可 以 在 某 个 索引 的 所 有 类 型 中 搜索 。 


现在 知道 了 Elasticsearch 中 映射 是 如 何 使 用 的 ， 接 下 来 看 看 如 何 阅 
读 和 编写 某 个 类 型 的 映射 。 


在 get-together/ 中 搜 go sopi: 1 在 ge tto oge! ae a 中 结果 : 
Æ “Elasticsearct ent 返 回 : 1 RR “Elas earch” event 返 回 : 1 
1, j 
ID: 1 ID: 1 
Name: Elasticsearch Denver Name: Hadoop and Elasticsearch 
Organizer: Lee Date: 2013-09-09T 18:30 
类 型 : group 类 型 : event 
索引 : get-together 


图 3-1 ”使 用 类 型 划分 同一 索引 中 的 数据 。 搜 索 可 以 在 一 个 、 多 个 或 所 有 类 型 中 运行 


3.1.1 检索 和 定义 映射 


当 >] Elasticsearchk JET fR, 1S NAFLD RY, KA 
Elasticsearch 会 目 动 识 别 字段 ， 并 相应 地 调整 映射 。 代码 清 单 3-1 将 展 
示 到 这 些 是 如 何 生效 的 。 在 一 个 生产 应 用 中 ， 你 常常 想 预先 定义 目 己 
的 映 映 ， 这 样 职 没有 必要 依赖 于 目 动 的 字段 识别 。 本 章 稍 局 会 阐述 如 
何 定 义 映 射 。 


1. 获取 目前 的 映射 


为 了 查看 某 个 字段 类 型 当前 的 映射 ， 回 该 类 型 URL 的 _mapping 
接口 发 送 一 个 HTTP GET 请 求 : 


curl 'localhost:9200/get-together/group/_mapping?pretty ' 


在 代码 清单 3-1 中 ， 首 先 索 引 一 个 来 自 聚 会 网 站 的 新 文档 ， 指 定 一 
个 名 为 new-events 的 类 型 ， 然 后 Elasticsearch 会 目 动 地 创建 映射 。 接 
着 ,检索 创 建 的 映射 ， 结 果 展 示 了 文档 的 字段 ， 以 及 Elasticsearch 为 每 
个 字段 所 识别 的 字段 类 型 。 


代码 清单 3-1 获取 自动 生成 的 映射 


curl -XPUT 'localhost:9200/get-together/new-events/1' -d '{ <--- 
索引 一 篇 新 的 文档 

"name": "Late Night with Elasticsearch", 

"date": "2013-10-25T19:00" 


curl 'localhost:9200/get-together/_mapping/new-events?pretty' 和 一 - 
- -获取 当前 映射 
# reply{ "get-together" : { 
"mappings" : { 
"new-events" : { 
"properties" : 


"date" : { <--- 检 查 文档 中 的 两 个 字段 及 每 个 字段 的 
"type" "date", 
"format" : "dateOptionalTime" 


: "string" 


2. 定义 新 的 映射 


为 了 定义 一 个 映射 ， 可 以 使 用 和 前 面 一 样 的 URL， 但 是 应 该 发 送 
一 个 HTTP PUT 请 求 而 不 是 GET 请 求 。 需 要 在 请 求 中 指定 JSON 格 式 的 
映射 ， 格 式 和 获取 的 映射 相同 。 例 如 ， 下 面 的 请 求 设置 了 一 个 映射 ， 
其 中 将 host 字 段 定 义 为 string RA: 


% curl -XPUT 'localhost:9200/get-together/_mapping/new-events' -d 
1 


"new-events" : { 
"properties" : { 
"host": { 
"type" : "string" 


A DEQ ARS Zia, (SERA AE SCS Z BE MT 
的 映射 。 你 已 经 拥有 一 个 映 映 了 ， 为 什么 像 代 码 清 单 3-1 所 示 的 PUT 请 
求 还 能 生效 呢 ? 接 下 来 解释 这 一 切 。 


3.1.2 扩展 现 有 的 映射 


如 宁 在 现 有 的 基础 上 再 设置 一 个 映射 ，Elasticsearch 会 将 两 者 进行 
ET aaa [AJElasticsearchHR A EEA, DIAPER PF IT 
1 结 : 


"get-together" : { 
"mappings" : { 


"new-events" : { 
"properties" : { 

"date" : { 
"type" : "date", 
"format" : "dateOptionalTime" 

ty 

"host" : { 
"type" : "string" 


}, "name" : { 


"type" : "string" 
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义 的 一 个 新 字段 。 随 着 新 字段 的 加 入 ， 初 始 的 映射 被 扩展 了 ， 在 任何 
时 候 都 可 以 进行 这 样 的 操作 。Elasticsearch 将 此 称 为 现 有 映射 和 先前 提 
供 的 映射 的 合并 


但 是 ， 并 非 所 有 的 合并 是 奏效 的 。 例 如 ， 你 无 法 改变 现 有 字段 的 
数据 类 型 ， 而 且 通 常 无 法 改变 一 个 字段 被 索引 的 方式 。 下 面 来 具体 看 
看 为 什么 会 这 样 。 在 代码 清单 3-2 中 ， 如 果 试 图 将 host 字 段 改 为 1ong 
类 型 ， 操 作 会 失败 并 抛 出 MergeMappingException 的 异常 。 


代码 清单 3-2 ”试图 将 现 有 的 字段 类 型 从 字符 串 改 变 为 长 整 型 


curl -XPUT 'localhost:9200/get-together/_mapping/new-events' -d '{ 
"new-events" : { 
"properties" : { 
"host": { 
"type" : "long" 


} 


1 


# reply{"error":"MergeMappingException[Merge failed with failures 
{ [mapper 

[host] of different type, current_type [string], merged_type 
[long]]}]","status":400} 


避免 这 个 错误 的 唯一 方法 是 重新 索引 new-events 里 的 所 有 数 
据 ， 包 括 如 下 步骤 。 


(1) 将 new-events 类 型 里 的 所 有 数据 移 除 。 本 章 稍 后 将 阐述 
如 何 删除 数据 ， 移 除数 据 的 同时 也 会 移 除 现 有 的 映射 。 


(2) 设置 新 的 映射 。 
(3) 再 次 索引 所 有 的 数据 。 


为 了 理解 为 什么 可 能 需要 重新 索引 数据 ， 想 象 一 下 已 经 索引 了 一 
个 活动 ，host 字段 是 字符 串 。 如 果 现 在 希望 将 host 字 段 变 为 1ong 
，Elasticsearch 不 得 不 改变 host 在 现 有 文档 中 的 索引 方式 。 在 本 章 稍 
后 你 将 发 现 ， 编 辑 现存 的 文档 意味 着 删除 和 再 次 的 索引 。 正 确 的 映 
射 ， 理 想 情 况 下 只 需要 增加 ， 而 无 须 修 改 。 为 了 定义 这 样 的 映射 ， 来 
Elasticsearch 中 可 为 字段 选择 的 核心 类 型 ， 以 及 对 于 这 些 类 型 能 做 
些 什 么 。 


3.2 ”用 于 定义 文档 字段 的 核心 类 型 


Elasticsearch 中 一 个 字段 可 以 是 核心 类 型 之 一 (参见 表 3-1) ， 如 
字符 串 或 者 数值 型 ， 也 可 以 是 一 个 从 核心 类 型 派生 的 复杂 类 型 ， 如 数 
组 。 


还 有 些 其 他 的 类 型 本 章 没 有 涉及 。 例 如 ， 峰 套 类 型 允许 在 文档 中 
包含 其 他 文档 ， 或 geo_point 类 型 存储 了 地 球 上 的 经 度 和 纬度 位 置 。 我 
们 将 在 第 8 章 中 讨论 附加 的 类 型 ， 酒 一 了 文档 之 则 的 关系 。 在 附录 A 
中 ， 我 们 将 讨论 地 理 空间 数据 。 


除了 文档 中 定义 的 字段 ， 如 名 称 和 日 期 ，Elasticsearch 还 使 用 一 组 预定 义 的 字段 来 丰富 
文档 。 例 如 ， 有 一 个 _al1 字段 ， 索 引 了 文档 中 的 所 有 字段 。 这 对 于 用 户 未 指定 字段 的 搜 
索 很 有 帮助 一 一 他 们 可 以 在 所 有 字段 中 搜索 ， 这 些 预定 义 的 字段 有 其 自己 的 配置 选项 ， 我 
们 将 在 本 周 稍 后 讨论 。 


让 我 们 看 看 每 种 核心 类 型 ， 这 样 在 索引 目 己 的 数据 时 ， 可 以 选择 
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323-1 Elasticsearch 的 核心 字段 类 型 


核心 类 型 取 值 示例 


核心 类 型 取 值 示例 


ee fi 
em fname 
布尔 取 值 可 以 是 true 或 false 


3.2.1 字符 串 类 型 


字符 串 是 最 直接 的 : 如 采 在 索引 字符 ， 字 段 吏 应 该 是 string 类 
型 。 它 们 也 十 最 有 趣 ， 因 为 在 映射 中 有 很 多 选项 来 分 析 它 们 。 


解析 文本 、 转变 文本 、 将 其 分 解 为 基本 元 系 便 得 搜索 更 为 相关 ， 
个 过 程 叫 作 分 析 。 如 有 条 这 昕 上 去 很 抽象 ， 不 用 担心 ， 第 5 章 解 释 了 
记 个 概念 。 ° 现在 先 看 看 基本 原理 ， 从 代码 清单 3-1 中 索引 的 文档 开始 。 


% curl -XPUT 'localhost:9200/get-together/new-events/1' -d '{ 
"name": "Late Night with Elasticsearch", 
"date": "2013-10-25T19:00" 


} 1 


当 这 篇 文档 索引 后 ， 在 name 字符 串 字 段 里 搜索 单词 late 。 


% curl 'localhost:9200/get-together/new-events/_search?pretty' -d 
T 


"query": { 
"query_string": { 
"query": "late" 


} 


搜索 发 现 了 代码 清单 3-1 中 索引 的 “Late Night with Elasticsearch” X 
档 。Elasticsearch 通 过 分 析 连 接 了 字符 串 "Late" 和 "Late Night 
with Elasticsearch" 。 如 图 3-2 所 示 ， 当 索引 "Late Night 
with Elasticsearch" 时 ， 默 认 的 分 析 器 将 所 有 字符 转化 为 小 
写 ， 然 后 将 字符 串 分 解 为 单词 。 


docl 
名 字 : Late Night with Elasticsearch 


docl 
名 字 的 词 条 : 


“late”, “night”, “with elasticsearch ” 


doc2 
名 字 的 词 条 : 
“latenight” 


索引 


图 3-2 “在 默认 的 分 析 器 将 字符 串 分 解 为 词 条 后 ， 随 后 的 搜索 匹配 了 那些 词 条 


分 析 过 程 生成 了 4 个 词 条 ， 即 late » night `with 和 
elasticsearch 。 和 查询 的 字符 串 经 过 同样 的 处 理 过 程 ， 但 是 这 
次 ，"“late” 生 成 了 同样 的 字符 串 一 "late" 。 因 为 查询 生成 的 late 
oe 词 条 匹配 了 ， 所 以 文档 (doci) 匹配 上 了 搜 


pa] 


一 个 词 条 是 文本 中 的 一 个 单词 ， 是 搜索 的 基本 单位 。 在 不 同 的 情景 下 ， 单 词 可 以 意味 
着 不 同 的 事物 ， 例 如 ， 它 可 以 是 一 个 名 字 ， 也 可 以 是 一 个 IP 地 址 。 如 果 只 想 严格 匹配 某 个 
字段 ， 应 该 将 整个 字段 作为 一 个 单词 来 对 待 。 


< 
已 


男 一 方面 ， 如 果 索 引 “latenight*"， 默 认 的 分 析 器 只 创建 了 一 个 词 条 
——latenight 。 搜 索 “late” 不 会 命中 doc2 文 档 ， 因 为 它 并 不 包含 词 
条 late 。 


映射 会 对 这 种 分 析 过 程 起 到 作用 。 可 以 在 映射 中 指定 许多 分 析 的 
选项 。 例 如 ， 可 以 配置 分 析 ， 生 成 原始 词 条 的 同义词 ， 这 样 同义词 的 
查询 同样 可 以 匹配 。 第 5 章 将 深入 分 析 过 程 的 细节 。 现 在 来 看 看 index 
选项 ， 它 可 以 设置 为 analyzed (默认 ) 、not_analyzed 或 no。 
2 name 字段 设置 为 not_analyzed ， 了 映射 可 能 看 上 去 像 这 
$. 


% curl -XPUT 'localhost:9200/get-together/_mapping/new-events' -d 
1 


"new-events" : { 
"properties" : { 
"name": { 
"type" : "string", 
"index" : "not_analyzed" 


默认 情况 下 ，index 被 设置 为 analyzed ， 并 产生 了 之 前 看 到 的 
行为 : 分 析 器 将 所 有 字符 转 为 小 写 ， 并 将 字符 串 分 解 为 单词 。 当 期 望 
每 个 单词 完整 匹配 时 ， 请 使 用 这 种 选项 。 举 个 例子 ， 如 果 用 户 搜 
索 “elasticsearch”， 他 们 希望 在 结果 列表 里 看 到 “Late Night with 


Elasticsearch” ° 


将 index 设 置 为 not_analyzed ， 将 会 产生 相反 的 行为 : 分 析 过 
程 被 略 过 ， 整 个 字符 串 被 当 作 单独 的 词 条 进行 索引 。 当 进行 精准 的 匹 
配 时 ， 请 使 用 这 个 选项 ， 如 搜索 标签 。 你 可 能 希望 “big data” 出 现在 搜 
索 “big data” 的 结果 中 ， 而 不 是 出 现在 搜索 “data” 的 结果 中 。 同 样 ， 对 
于 多 数 的 词 条 计数 聚集 ， 也 需要 这 个 。 如 果 想 知道 最 党 出 现 的 标签 ， 
可 能 需要 “big data”* 作 为 一 整个 词 条 统计 ， 而 不 是 “big” 和 “data” 分 开 统 
计 。 第 7 章 将 探讨 聚集 。 

如 果 将 index 设 置 为 no ， 索 引 就 被 略 过 了 ， 也 没有 词 条 产生 ， 


此 无 法 在 那个 字段 上 进行 搜索 。 当 无 须 在 这 个 字段 上 搜索 时 ， 这 个 选 
项 节省 了 存储 空间 ， 也 缩短 了 索引 和 搜索 的 时 间 。 例 如 ， 可 以 存储 活 


动 的 评论 。 尽 管 人 存储 和 展示 这 些 评论 是 很 有 价值 的 ， 但 是 可 能 并 不 需 
要 搜索 它们 。 在 这 种 情况 下 ， 关 闭 那 个 字段 的 索引 ， 使 得 索引 的 过 程 
更 快 ， 并 节省 了 存储 空间 。 


r 
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对 于 某 些 查询 ， 如 之 前 使 用 的 query_string ,分 析 过 程 是 运用 于 搜索 条 件 的 。 了 解 
这 种 情况 是 否 发 生 是 非常 重要 的 ， 否 则 可 能 产生 无 法 预料 的 结果 。 


例如 ， 如 果 索 引 “Elasticsearch” 而 它 又 没有 被 分 析 过 ， 系 统 就 会 生成 词 条 
Elasticsearch 。 像 这 样 查询 “Elasticsearch” 的 时 候 : 


curl 'localhost:9200/get -together/new-events/_search?q=Elasticsearch' 


URI 请 求 被 分 析 之 后 ， 词 条 elasticsearch (小 写 ) 就 会 生成 。 但 是 索引 中 并 没有 词 条 
elasticsearch 。 你 只 有 Elasticsearch ( 首 字母 E 大 写 ) ， 于 是 不 会 命中 结果 。 第 4 
章 将 讨论 搜索 ， 你 将 学 习 哪 些 查 询 类 型 分 析 了 输入 的 文本 ， 而 哪些 没有 。 


接 下 来 看 看 可 以 如 何 索引 数字 。Elasticsearch 提 供 很 多 核心 类 型 来 
处 理 数 字 ， 我 们 将 它们 统称 为 数值 型 。 


3.2.2 ”数值 类 型 


数值 类 型 可 以 是 浮 点 数 ， 也 可 以 是 非 浮 点 数 。 如 果 不 需 要 小 数 ， 
可 以 选择 byte、short、int 或 者 1ong。 如 果 确 实 需要 小 数 ， 你 的 
选择 是 float 和 doub1le 。 这 些 类 型 对 应 于 Java 的 原始 数据 类 型 ， 对 
于 它们 的 选择 将 会 影响 索引 的 大 小 ， 以 及 能 够 索引 的 取 值 范围 。 例 
W, long 需要 64 位 ， 而 short 只 需要 16 位 。 但 是 short 只 能 存储 
从 -32 768 到 32 767 之 间 的 数字 ，long 却 可 以 存储 其 万 亿 倍 的 数值 。 


如 果 不 知 道 所 需要 的 整 型 数字 取 值 范围 ， 或 者 是 浮 点 数字 的 精 
度 ， 让 Elasticsearch 目 动 检 测 映 射 更 为 安全 : 为 整数 值 分 配 long ， 为 
浮 点 数值 分 配 double 。 有 索引 可 能 变 得 更 大 、 变 得 更 慢 ， 因 为 这 两 种 
类 型 占据 了 更 多 的 空间 ， 但 是 ， 在 索引 的 过 程 中 Elasticsearch 不 会 发 生 
超出 范围 的 钳 误 。 


现在 ， 我 们 已 经 前 述 了 字符 串 类 型 和 数值 类 型 ， 接 下 来 看 看 更 为 
特制 的 类 型 一 -date。 


3.2.3 日 期 类 型 


date 类 型 用 于 存储 日 期 和 时 间 。 它 是 这 样 运作 的 : 通常 提供 一 
个 表示 日 期 的 字符 串 ， 例 如 2013-12-25T09:00:00。 然 后 ， 
Elasticsearch 解 析 这 个 字符 串 ， 然 后 将 其 作为 ]ong 的 数值 存 入 Lucene 
的 索引 。 该 1ong 型 数值 是 从 1970 年 1 月 1 日 00:00:00 UTC (UNIX 纪 
元 ) 到 所 提供 的 时 间 之 间 已 经 过 去 的 毫秒 数 。 


当 搜 索 文 档 的 时 候 ， 你 仍然 提供 date WFR, Hae 
Elasticsearch 将 这 些 字符 串 解 析 并 按照 数值 来 处 理 。 这 样 做 的 原因 是 和 
字符 串 相 比 ， 数 值 在 存储 和 处 理 时 更 快 。 


另 一 方面 ， 只 需要 考虑 Elasticsearch 是 否 理解 你 所 提供 的 date 字 
符 串 。 这 里 date 字符 串 的 数据 格式 是 通过 format 选项 来 定义 的 ， 
Elasticsearch 默 认 解 析 ISO 8601 AJAY EER ° 


ISO8601 是 一 种 交流 日 期 和 时 间 相关 数 据 的 国际 标准 ， 由 于 RFC 3339 


(www.ietf.org/rfc/rfc3339.txt) 而 广泛 运用 于 时 间 戳 。ISO 8601 日 期 看 上 去 像 这 样 : 


2013-10-11T10:32:45.453-03:00 


EAT RAPA WS: 信息 是 从 左 到 右 阅 读 ， 从 最 重要 的 部 分 到 最 次 
要 的 部 分 ， 年 份 是 4 位 数字 ; 时 间 包 含 了 亚 秒 和 时 区 。 这 种 时 间 戳 中 的 大 多 数 信息 是 可 选 
多， 例如 ， 无 须 给 出 毫秒 ， 还 可 以 省 略 整 个 时 间 部 分 。 


使 用 format 选项 来 指定 日 期 格式 的 时 候 ， 有 以 下 两 种 选择 。 


。 使 用 预定 义 的 日 期 格式 。 例 如 ，date 格式 解析 2013-02-25 这 
样 的 日 期 。 有 很 多 预定 义 的 格式 供 选 择 ， 可 以 在 


www.elastic.co/guide/reference/mapping/date-format/# H Hp ° 


。 设置 自己 定制 的 格式 。 可 以 指定 时 间 惟 所 遵循 的 模式 。 例 如 ， 指 
定 MMMYYYY 来 解析 Jul 2001 这 样 的 日 期 。 


为 了 使 用 所 有 的 日 期 信息 ， 在 代码 清单 3.3 中 添加 一 个 称 为 
weekly-events 的 新 映射 类 型 。 然 后 ， 如 代码 清单 3-3 所 示 ， 增 加 首 
次 活动 的 名 称 和 日 期 ， 然 后 为 这 个 日 期 指定 ISO 8601 的 时 间 惟 。 同 
时 ， 添 加 下 次 活动 的 日 期 字段 ， 并 为 其 设置 定制 的 日 期 格式 。 


代码 清单 3-3 ”使 用 默认 的 和 定制 的 时 间 格 式 


curl -XPUT 'localhost:9200/get-together/_mapping/weekly-events' - 


"weekly-events" : { 
"properties": { 

"next_event": { =---- 定 义 定 制 化 的 日 期 格式 。 其 他 日 期 是 被 自动 化 地 检测 ， 
"type": "date", 
"format": "MMM DD YYYY" 

} 
} 


}'curl -XPUT 'localhost:9200/get-together/weekly-events/1' -d ' 
{ 
"name": "Elasticsearch News", 
"first_occurence": "2011-04-03", =---- 设 置 标准 的 日 期 /时 间 格 式 。 这 里 仅 
仅 包含 日 期 ， 并 未 指定 时 间 
"next_event": "Oct 25 2013" 
} 1 


我 们 已 经 讨论 过 string、number 和 date 。 下 面 继续 讨论 最 后 
一 个 核心 类 型 一 - -boolean 。 束 像 date 一 样 boolean 也 是 特制 
的 类 型 。 


3.2.4 布尔 类 型 


boolean 类 型 用 于 存储 文档 中 的 true /false 《〈 真 / 假 ) 。 例 
如 ， 你 可 能 期 望 一 个 字段 表明 活动 的 视频 是 否 可 以 下 载 一 校 。 一 个 样 


例 的 文档 可 以 像 这 样 进行 索引 : 


% curl -XPUT 'localhost:9200/get-together/new-events/1' -d '{ 
"name": "Broadcasted Elasticsearch News", 


"downloadable": true 


其 中 downloadable 字段 被 自动 地 映射 为 boolean ， 在 Lucene 的 索 
引 中 被 存储 为 代表 true 的 T ， 或 者 代表 false WF ° RRA PAA, 
Elasticsearch 解 析 你 在 源 文档 中 提供 的 值 ， 将 true 和 false 分 别 转化 
为 T 和 F ° 


你 已 经 了 解 了 核心 的 类 型 一 一 string 、numeric、date 和 
boolean ， 可 以 将 这 些 用 于 自己 的 字段 中 。 接 下 来 继续 学 习 数 组 和 多 
字段 ， 这 些 使 你 能 够 多 次 使 用 同一 个 核心 类 型 。 


3.3 ”数组 和 多 字段 


有 的 时 候 ， 在 文档 中 仅仅 包括 简单 的 字段 - 值 配 对 征 不 够 的 。 有 可 
能 在 同一 个 字段 中 需要 拥有 多 个 值 。 让 我 们 移 抛 开 聚 会 的 例子 ， 看 看 
另 一 个 用 例 : 假设 你 正在 索引 博客 帖子 ， 为 帖子 设计 了 一 个 标签 字 
段 ， 字 段 中 有 一 个 或 者 多 个 标签 。 这 种 情况 下 ， 需 要 一 个 数组 。 


3.3.1 数组 


如 采 要 索引 拥有 多 个 值 的 字段 ， 将 这 些 值 放 入 方 括号 中 ， 例 如 : 


% curl -XPUT 'localhost:9200/blog/posts/1' -d '{ 
"tags": ["first", "initial" ] 


这 个 时 候 你 可 能 会 好 奇 : “我 是 如 何在 映射 中 定义 一 个 数组 的 ? ”答案 
征 其实 你 并 没有 定义 。 在 这 种 情况 下 ， 了 映射 将 标签 (tags) 字段 定 
义 为 字符 串 型 ， 和 单个 值 同 样 处 理 。 


% curl 'localhost:9200/blog/_mapping/posts?pretty' 


"blog" : { 
"mappings" : { 
"posts" : { 
"properties" : { 
"tags" : { 
"type" : "string" 


PRA DAB Sc FPN, TUZAR, Ben DA Al A —É, 
ae ae 如 采 下 一 个 博客 帖子 只 有 1 个 标签 ， 可 以 这 样 
索引 : 


% curl -XPUT 'localhost:9200/blog/posts/2' -d '{"tags": "second"}' 


对 于 Lucene 内 部 处 理 而 言 ， 这 两 者 基本 是 一 致 的， 在 同一 个 字段 


中 索引 或 多 或 少 的 词 条 ， 完 全 取决 于 你 提供 了 多 少 个 值 。 


3.3.2 ”多 字段 


如 果 说 数组 允许 你 使 用 同一 个 设置 索引 多 项 数据 ， 那 么 多 字段 允 
许 使 用 不 同 的 设置 ， 对 同一 项 数据 索引 多 次 。 举 个 例子 ， 代 码 清 单 3-4 
在 帖子 类 型 中 使 用 两 种 不 同 的 选项 来 配置 tags 字段 : analyzed、 针 
对 每 个 单词 进行 匹配 ， 以 及 not_analyzed 、 针 对 完整 标签 名 称 的 精 
确 匹配 。 


ES 


无 须 重 新 索引 数据 ， 就 能 将 单字 段 升级 到 多 字段 。 如 果 在 运行 代码 清单 3-4 之 前 ， 就 已 
经 创建 了 string 类 型 的 标签 字段 ， 那 么 自动 升级 就 会 触发 。 反 其 道行 之 是 不 可 以 的 ， 一 
旦 子 字段 已 经 存在 了 人， 就 不 能 将 其 抹 去 。 


代码 清单 3-4 字符 串 类 型 的 多 字段 : 一 次 是 analyzed， 一 次 是 not_analyzed 


% curl -XPUT 'localhost:9200/blog/_mapping/posts' -d '{ 
"posts" : { 
"properties" : { 
"tags" : { 

"type": "string", =--- 默 认 的 标签 字段 是 analyzed， 将 提供 的 文本 转 
化 为 小 写 ， 并 切 分 为 单词 

"index": "analyzed", 

"Fields": { 

"verbatim": { 


三 | 


"type": "string", <--- 第 二 个 字段 tags .verbatim 是 
not_analyzed， 将 原 有 的 标签 当做 单一 的 词 条 处 理 
"index": "not_analyzed" 


要 搜索 analyzed 版 本 的 标签 字段 ， 就 像 搜索 其 他 字符 串 一 样 。 
如 果 要 搜索 not_analyzed 版 本 的 字段 (仅仅 精确 匹配 原 有 的 标 
签 ) ， 就 要 指定 完整 的 路 径 : tags .verbatim。 


多 字段 和 数组 字段 都 允许 在 单一 字段 中 拥有 多 个 核心 类 型 的 值 。 


下 面 来 看 看 预定 义 的 字段 (通常 是 Elasticsearch 自 己 来 处 理 ) ， 它 们 是 
如 何 为 文档 增加 新 的 功能 ， 如 目 动 过 期 。 


3.4 ”使 用 预定 义 字 段 


Elasticsearch 提 供 了 一 些 预 定义 的 字段 ， 可 以 使 用 并 配置 它们 来 增 
J 。 和 之 前 看 到 的 字段 相 比 ， 这 些 预 定义 的 字段 在 3 个 方面 有 


。 通常 ， 不 用 部 署 预定 义 的 字段 ，Elasticsearch 会 做 这 件 事情 。 例 
如 ， 可 以 使 用 timestamp 字段 来 记录 文档 索引 的 日 期 。 

。 它们 揭示 了 字段 相关 的 功能 。 例 如 ，_tt1 (存活 时 间 ，time to 
字段 使 得 Elasticsearch 可 以 在 指定 的 时 间 过 后 删除 某 些 文 


。 预定 义 的 字段 总 是 以 下 划 线 (_) 开头 。 这 些 字段 为 文档 添加 新 
的 元 数据 ，Elasticsearch 将 这 些 元 数据 用 于 不 同 的 特性 ， 从 存储 原 
始 的 文档 ， 到 存储 用 于 目 动 过 期 的 时 间 玲 信息 。 


我 们 将 重要 的 预定 义 字 段 分 为 以 下 几 种 类 别 。 


。 控制 如 何 存储 和 搜索 你 的 文档 。_source 在 索引 文档 的 时 候 ， 
存储 原始 的 JSON 文 档 。_all 将 所 有 的 字段 一 起 索引 。 

。 唯一 识别 文档 。 有 些 特 别 的 字段 ， 包 含 了 文档 索引 位 置 的 数据 : 
_uid `_id »_type #l_index 。 

。 为 文档 增加 新 的 属性 。 可 以 使 用 _size 来 索引 原始 JSON 内 容 的 
大 小 。 类 似 地 ， 可 以 使 用 _timestamp 来 索引 文档 索引 的 时 间 ， 
tf AERA ttl 来 告知 Elasticsearch 在 一 定时 间 后 删除 文档 。 这 里 
不 讨论 它们 ， 因 为 通常 有 更 好 的 方法 来 达到 同样 的 目的 (例如 ， 
在 3.6.2 节 我 们 将 看 到 ， 将 整个 索引 设置 为 过 期 成 本 更 低 ) ， 而 且 
这 些 字 段 在 将 来 的 发 布 版 本 中 可 能 被 弃 用 。 

。 控制 文 档 路 由 到 哪些 分 片 。 相 关 的 字段 是 _routing 和 parent 
© 我 们 将 在 9.8 节 了 解 _routing ， 这 和 扩展 有 关 。 在 第 8 章 中 了 
解 _parent ， 其 中 我 们 会 探讨 文档 之 间 的 关系 。 


3.4.1 ”控制 如 何 存 储 和 搜索 文档 


先 从 _source 开 始 ， 它 可 以 在 索引 中 存储 文档 。 还 有 _all,， 使 
用 它 可 以 在 单个 字段 上 索引 所 有 内 容 。 


1. 存储 原 有 内 容 的 _source 


_source 字段 按照 原 有 格式 来 存储 原 有 的 文档 。 这 一 点 可 以 让 你 
看 到 匹配 某 个 搜索 的 文档 ， 而 不 仅仅 是 它 们 的 ID 。 


_Ssource 字 段 的 enabled 可 以 设置 为 true 或 者 false ， 来 指定 
是 否 想 要 存储 原始 的 文档 。 默 认 情 况 下 是 true， 在 许多 情况 下 这 是 
非常 棒 的 ， 因 为 _source 的 存在 允许 你 使 用 其 他 重要 的 Elasticsearch 
特性 。 例 如 ， 在 本 章 稍 后 将 学 习 到 ， 使 用 更 新 API 来 更 新 文档 的 内 容 
u — 。 同样 ， 默 认 的 高 亮 实现 需要 _source (关于 高 
亮 的 更 多 细节 请 参考 附录 C) 。 


由 于 很 多 功能 都 依赖 于 _source 字段 ， 而 且 从 空间 和 性 能 的 角度 来 看 存储 的 成 本 相对 
低廉 ， 在 版 本 2.0 中 将 无 法 再 关闭 _source 选项 。 出 于 同样 的 考虑 ， 我 们 建议 不 要 关闭 
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文档 时 ，Elasticsearch 通 常 返 回 什 么 : 


% curl 'localhost:9200/get-together/new-events/1?pretty' 


" source 


"name 


: "Broadcasted Elasticsearch News 


了 


"downloadable 


: true 


搜索 的 时 候 ， 同 样 会 获得 _source 的 JSON， 因 为 这 是 默认 设置 
会 返回 的 内 容 。 


2. 仅仅 返回 源 文 档 的 某 些 字段 


当 检 索 或 者 搜索 某 篇 文档 的 时 候 ， 可 以 要 求 Elasticsearch 只 返回 特 
定 的 字段 ， 而 不 是 整个 _source。 一 种 实现 的 方法 是 在 fields 参数 
中 提供 用 逗号 分 隔 的 字段 列表 ， 例 如 : 


% curl -XGET 'localhost:9200/get-together/group/1? 
pretty&fields=name 


1 
{ 
"_index" : "get-together", 
i "group", 
i D i 
"_ version" : 1, 
"found" : true, 
"fields" 


: { 


"name" 
: [ 


"Denver Clojure" 


如 果 _source 已 经 被 存储 ，Elasticsearch 从 那里 获取 所 需 的 字 
段 。 也 可 以 通过 设置 store 选 项 为 yes 来 存储 个 别 的 字段 。 举 个 例 
子 ， 如 果 只 需要 存储 name 字段 ， 映 射 看 上 去 可 能 是 这 样 。 


% curl -XPUT 'localhost:9200/get-together/_mapping/events_stored' 
-d '{ 
"events_stored": { 
"properties": { 
"name": { 
"type": "string", 


"store" 


: "yes" 


回 Elasticsearch 请 求 特定 的 字段 时 ， 这 样 做 可 能 会 很 有 帮助 ， 原 
是 相对 于 检索 整个 _source 然后 再 抽取 而 言 ， 检 索 单 一 的 存储 字段 要 


更 快 一 些 ， 尤 其 是 在 文档 很 大 的 时 候 。 


当 存 储 单独 的 字段 时 ， 应 该 考 虚 到 存储 的 越 多 ， 
慢 的 索引 和 搜索 速度 。 


索引 越 大 。 更 大 的 索引 经 常 意味 着 更 


束 其 内 部 来 看 ，_source 只 是 男 一 个 Lucene 中 的 存储 字段 。 
Elasticsearch 将 原始 的 JSON 存 储 于 其 中 ， 然 后 按 需 抽取 字段 的 内 容 。 


3. 索引 一 切 的 _all 


就 好 像 source 是 存储 所 有 的 信息 ，_al11 是 索引 所 有 的 信息 。 
“PQA all 字段 的 时 候 ，Elasticsearch 将 在 不 考虑 是 哪个 字段 匹配 成 
功 的 情况 下 ， 返 回 命 中 的 文档 。 当 用 户 不 知道 在 哪里 查询 某 些 内 容 的 
时 候 ， 这 一 点 非常 有 有 用。 例如， 搜索 “elatsticsearch” 可 能 匹配 上 组 
%“Elasticsearch Denver”， 也 可 能 是 其 他 分 组 的 elasticsearch 标 
As o 


从 URI 上 运行 搜索 时 如 果 不 指 定 字 段 名 称 ， 系 统 默认 情况 下 将 会 
在 _al1 上 搜索 : 


curl 'localhost:9200/get -together/group/_search?q=elasticsearch' 


如 果 总 是 在 特定 的 字段 上 搜索 ， 可 以 通过 设置 enabled 为 false 
来 关闭 _al1 : 


"events": 


"all": { "enabled": false} 


如 此 设置 会 使 得 索引 的 规模 变 得 更 小 ， 而 且 索 引 操作 变 得 更 快 。 


~ ijnclude_in_all 隐 式 地 设置 为 true， 每 个 字段 
a 含 在 _al1 之 中 。 这 个 选项 来 控制 哪些 字段 被 _all 包 
, aloe 


% curl -XPUT 'localhost:9200/get-together/_mapping/custom-all' -d 


"custom-all": { 
"properties": { 
"organizer": { 
"type": "string", 
"include_in_all": false 


使 用 include_in_al1 的 选项 ， 将 赋予 你 更 高 的 灵活 性 。 灵 活 


性 不 仅 体现 在 空间 存储 上 ， 同 样 体现 在 查询 的 表现 方式 上 。 如 果 一 次 
搜索 在 没有 指定 字段 的 情形 下 运行 ，Elasticsearch 只 会 匹配 _al1 所 包 
FFE ° 


下 面 的 一 组 预定 义 字段 ， 包 括 了 这 些 用 于 识别 文档 的 字段 : 
_index、_type、_id 和 _uid 。 


3.4.2 ”识别 文档 


为 了 识别 同一 个 索引 中 的 某 篇 文档 ，Elasticsearch 使 用 _uid 中 的 
文档 类 型 和 ID 结合 体 。_uid 字 段 是 由 id 和 _type 字 段 组 成 ， 当 搜索 
或 者 检索 文档 的 时 候 总 是 能 获得 这 两 项 信息 : 


% curl 'localhost:9200/get-together/group/1?fields&pretty' 
{ 

"index" : "get-together", 

"type" 


: "group" 


了 


" id " 


è Way 


"_ version" : 1, 
"found" : true 


现在 你 可 能 好 奇 : “为 什么 Elasticsearch 要 在 两 个 地 方 存储 同样 的 
数据 ? 已 经 有 了 _id 和 _type， 为 什么 还 要 uid? ” 


由 于 所 有 的 文档 都 位 于 同一 个 Lucene 的 索引 中 ，Elasticsearch 内 部 
使 用 _uid 来 唯一 确定 文档 的 号 份 。 类 型 和 ID 的 分 离 是 一 种 抽象 ， 通 
过 类 型 的 区 分 使 得 针对 不 同 结构 的 运作 更 为 容易 。 正 是 因为 如 此 ， 
_id 通常 从 _uid 抽 取出 来 ， 但 是 _type 必须 单独 索引 ， 这 样 当 搜索 
特定 类 型 时 ， 系 统 才能 轻松 地 根据 类 型 来 过 滤 文 档 。 表 3-2 展 示 了 
_uid、_id 和 _type 的 默认 设置 。 


表 3-2 _id 和 _type 字段 的 默认 设置 


n 


3 于 识别 整个 索引 中 的 某 篇 文档 


E m 
该 字段 没有 被 索引 ， 也 没有 被 存储 。 如 果 搜 索 它 ， 实 际 
_id |no |no 上 使 用 的 是 _uid。 当 你 获得 了 结果 ， 也 同样 是 从 _uid 
抽取 内 容 
该 字段 是 被 索引 的 ， 并 且 生 成 一 个 单一 的 词 条 。 
_type|no |not_analyzed |Elasticsearch 用 它 来 过 小 指定 类 型 的 文档 。 也 可 以 搜索 
这 个 字段 


1. 为 文档 提供 ID 


目前 为 止 ， 多 数 是 通过 URI 的 一 部 分 来 手动 提供 ID。 例 如 ， 为 了 
索引 ID 为 1st 的 文档 ， 运 行 类 似 下 面 的 命令 : 


% curl -XPUT 'localhost:9200/get-together/manual_id/ist?pretty' -d 


"name": "Elasticsearch Denver" 


} 1 


可 以 在 回复 中 看 到 ID: 


"index" : "get-together", 
"type" : "manual_id", 
" id " 


: "ist" 


""version" : 1, 
"Created" : true 


或 者 ， 也 可 以 依靠 Elasticsearch 来 生成 唯一 的 ID。 如 果 尚 无 唯一 的 ID， 
或 者 没有 必要 通过 某 种 特定 的 属性 来 识别 文档 ， 这 一 点 就 很 有 帮助 。 
通常 而 言 ， 当 索引 应 用 程序 的 日 志 时 ， 你 会 这 么 做 : 这 些 数据 没有 唯 
一 的 属性 来 识别 它们 ， 而 且 它 们 也 从 不 会 被 更 新 。 


为 了 让 Elasticsearch 生 成 ID， 使 用 HTTP Post 请 求 并 省 去 ID: 


% curl -XPOST 'localhost:9200/logs/auto_id/?pretty' - 
"message": "I have an automatic id" 
T 


可 以 在 回复 中 看 到 目 动 生成 的 ID: 


{ 
"index" : "logs", 
"type" : "auto_id", 
" id W 


: "RWdYVCU8RjJ yy8sJPobVqDQ" 


1 
"_ version" : 1, 
"created" : true 


2. 在 文档 中 存储 索引 名 称 


除了 ID 和 类 型 ， 为 了 让 Elasticsearch 在 文档 中 存储 索引 的 名 称 ， 请 
使 用 _index 字段 。 和 _id、_type 一 样 ， 可 以 在 搜索 或 者 是 GET 请 求 
的 结果 中 看 到 _index ， 它 也 不 是 来 源 于 字段 的 内 容 。 默 认 情 况 下 
_index 是 关闭 的 。 


Elasticsearch 知 道 每 个 结果 来 自 哪 个 索引 ， 所 以 它 可 以 展示 


_index 的 值 ， 但 十 默认 你 目 己 是 无 法 搜索 _index 的 。 下 面 的 命令 不 
会 让 你 发 现 什 么 : 


% curl 'localhost:9200/_search?q=_index:get-together' 


为 了 打开 _index ， 要 将 enabled 设置 为 true 。 映 射 看 上 去 像 
下 面 这 样 : 


% curl -XPUT 'localhost:9200/get-together/_mapping/with_index' -d 


"with_index": { 
"index": { "enabled": true } 


} 
} 1 


如 琳 在 这 个 类 型 中 添加 文档 ， 然 后 重新 运行 之 前 的 搜索 请 求 ， 你 
将 会 发 现 新 的 文档 。 


正如 你 已 经 党 试 的 ， 通 过 索引 URL 来 搜索 属于 特定 索引 的 文档 可 能 很 容易 。 但 是 在 更 


每 位 用 户 创建 一 个 索引 。 在 多 个 索引 中 进行 搜索 时 ， 可 以 使 用 _index 字段 上 的 词 条 聚集 
来 展示 每 位 用 户 所 拥有 的 文档 数量 。 我 们 将 在 第 7 章 探讨 聚集 。 


你 已 经 了 解 了 在 Elasticsearch 中 ， 文 档 是 如 何 映射 的 。 这 样 ， 可 以 
ea: 己 案例 的 方式 来 进行 索引 。 接 下 来 看 看 如 何 修改 已 经 索引 
wh : 


3.5 “更 新 现 有 文档 


出 于 不 同 的 原因 ， 可 能 需要 修改 现 有 的 一 篇 文档 。 假 设 需要 修改 
一 个 聚会 分 组 的 组 织 者 。 可 以 索引 一 篇 不 同 的 文档 到 相同 的 地 方 R 
引 、 类 型 和 ID) ， 但 是 ， 如 你 所 想 ， 也 可 以 通过 发 送 Elasticsearch 所 要 
做 的 修改 ， 来 更 新 文档 。Elasticsearch 的 更 新 API 允 许 你 发 送 文档 所 需 
要 做 的 修改 ， 而 且 API 会 返回 一 个 答复 ， 告 知 操作 是否 成 功 。 图 3-3 展 
示 了 更 新 的 流程 。 


ID: 2 
更 新 分 组 2 名 称 : Elasticsearch Denver 


rea 组 织 者 : Lee 
设置 organizer 二 Roy 者 索引 : 
x get-together 


Elasticsearch 


收 到 更 新 请 求 ， 从 索引 
中 检索 现 有 文档 


按照 请 求 
进行 修改 索引 : 
\ we get-together 


Elasticsearch 


ID: 2 
名 称 : Elasticsearch Denver 


分 组 2 更 新 成 功 组 织 者 : Roy pon 
(删除 ID 为 2 的 现 有 文档 ) get-together 
i Elasticsearch 


重新 索引 新 的 文档 ， 并 删除 旧 的 文档 。 


图 3-3 ”文档 的 更 新 包括 检索 文档 、 处 理 文档 、 并 重新 索引 文档 ， 直 至 先前 的 文档 被 覆盖 
如 图 3-3 所 示 ，Elasticsearch 进 行 了 如 下 操作 (从 上 至 下 ) 。 
。 检 有 索 现 有 的 文档 。 为 了 使 这 步 答 效 ， 必 须 打 开 _source FR, 


否则 Elasticsearch 并 不 知道 原 有 文档 的 内 容 。 
。 进行 指定 的 修改 。 例 如 ， 如 果 文 档 是 


{"name": "Elasticsearch Denver", "organizer": "Lee"} 


而 你 希望 修改 组 织 者 ， 修 改 后 的 文档 应 该 十 


{"name": "Elasticsearch Denver", "organizer": "Roy"} 


。 删除 旧 的 文档 ， 在 其 原 有 位 置 索引 新 的 文档 《包含 修 改 的 内 容 ) 


oO 


在 本 节 中 ， 我 们 将 学 习 使 用 更 新 API 的 儿 种 方式 ， 并 探究 如 何 使 
用 Elasticsearch 的 版 本 特性 来 管理 并 发 。 


3.5.1 ”使 用 更 新 API 


首先 看 看 如 何 更 狐 文 档 。 更 新 API 提 供 了 以 下 几 种 方法 。 


。 通过 发 送 部 分 文档 ， 增 加 或 奉 换 现 有 文档 的 一 部 分 。 这 一 点 非常 
直观 : 发 送 一 个 或 多 个 字段 的 值 ， 当 更 新 完成 后 ， 你 期 望 在 文档 
中 看 到 新 的 内 容 。 

”如 采 文 档 之 前 个 存在 ， 当 发 送 部 分 文档 或 者 脚本 时 ， 请 确认 文档 

如 采 文 档 之 前 不 存在 ， 可 以 指定 被 索引 的 文档 原始 
， 发送 肢 本 来 更 新 文档 。 例如 ， 在 线 商店 中 ， 你 可 能 希望 以 一 定 的 
幅度 增加 T 恤 的 库存 数量 ， 而 不 是 将 其 固定 死 。 


1. 发 送 部 分 文档 


发 送 部 分 的 文档 内 容 ， 包 含 所 需要 设置 的 字段 值 ， 是 更 新 一 个 或 
多 个 字段 最 容易 的 方法 。 为 了 实现 这 个 操作 ， 需要 将 这 些 信息 通过 
HTTP POST 请 求 发 送 到 该 Ee update 端 点 。 运 行 代码 样 例 
中 的 populate.sh 脚 本 之 后 ， 下 面 的 命令 将 会 奏效 : 


% curl -XPOST 'localhost:9200/get-together/group/2/_update' - 
"doc": { 
"organizer": "Roy" 


} 
} 1 


这 条 命令 设置 了 在 doc 下 指定 的 字段 ， 将 其 值 设置 为 你 所 提供 的 
值 。 它 并 不 考虑 这 些 字段 之 前 的 值 ， 也 不 考虑 这 些 字段 之 前 是 否 存 
I 0 


在 更 新 的 时 候 ， 需 要 牢记 可 能 存在 冲突 。 例 如 ， 如 果 将 分 组 的 组 织 者 修改 为 “<Roy” 


alll. 


男 一 位 同事 将 其 修改 为 <Radu”*"， 那 么 其 中 一 次 更 新 会 被 男 一 次 所 覆盖 。 为 了 控制 这 种 


面 ， 可 以 使 用 版 本 功能 ， 本 章 稍 后 会 讨论 这 一 点 。 


2 . 使 用 upsert 来 创建 尚 不 存在 的 文档 


为 了 处 理 更 新 时 文档 并 不 存在 的 情况 ， 可 以 使 用 upsert 。 你 可 
能 对 于 这 个 来 目 关系 型 数据 库 的 单词 很 熟悉 ， 它 是 wp date 和 insert 两 个 
单词 的 混成 词 。 

如 果 被 更 新 的 文档 不 存在 ， 可 以 在 JSON 的 upsert 部 分 中 添加 一 
个 初始 文档 用 于 索引 。 命 令 看 上 去 是 这 样 的 : 


% curl -XPOST 'localhost:9200/get-together/group/2/_update' -d ' 
{ 


"doc": { 
"organizer": "Roy" 


T 

"upsert": { 
"name" : "Elasticsearch Denver", 
"organizer": "Roy" 


3. 通过 脚本 来 更 新 文档 


最 后 ， 来 看 看 如 何 使 用 现 有 文档 的 值 来 更 新 某 篇 文档 。 假 设 你 拥 
有 一 家 在 线 商店 ， 索 引 了 一 些 商 品 ， 你 想 将 某 个 商品 的 价格 增加 10。 
为 了 实现 这 个 目标 ， 可 使 用 同样 的 API， 但 是 不 再 提供 一 篇 文档 ， 而 
是 一 个 脚本 。 脚 本 通常 是 一 段 代 码 ， 包 售 于 发 送 给 Elasticsearch 的 
JSON 中 。 不 过 ， 脚 本 也 可 以 是 外 部 的 。 


第 6 章 将 讨论 脚本 的 更 多 细节 ， 因 为 你 很 可 能 会 使 用 脚本 让 搜索 结 
条 变 得 更 相关 。 第 7 章 展示 如 何在 聚集 中 使 用 脚本 ， 第 10 章 会 展示 如 何 
。 现 在， 让 我 们 看 看 一 个 更 新 脚本 的 以 下 3 项 重要 
TLR ° 


。 默认 的 脚本 语言 是 Groovy 。 它 的 语法 和 Java 相 似 ， 但 是 作为 脚 
本 ， 其 使 用 更 为 简单 。 

。 由 于 更 新 要 获得 现 有 文档 的 _source 内 容 ， 修 改 并 重新 索引 新 的 
文 ， 因 此 脚本 会 修改 _source 中 的 字段 。 使 用 ctx. _source 
来 引用 _source， 使 用 ctx，_source[ 字 段 名 ] 来 引用 某 个 指 
定 的 字段 。 _ 

。 如果 需要 变量 ， 我 们 推荐 在 params 下 作为 参数 单独 定义 ， 和 脚 
FAH K o 这 是 因为 脚本 需要 编译 ， 一 旦 编译 完成 ， 就 会 
被 缓存 。 如 果 使 用 不 同 的 参数 ， 多 次 运行 同样 的 脚本 ， 脚 本 只 需 
要 编译 一 次 。 之 后 的 运行 都 会 从 缓存 中 获取 现 有 脚本 。 相 比 每 次 
不 同 的 脚本 ， 这 样 运行 会 更 快 ， 因 为 不 同 的 脚本 每 次 都 需要 编 


译 。 


代码 清单 3-5 中 使 用 Groovy 脚 本 将 Elasticsearch 中 某 件 T 恤 的 价格 增 
110 ° 


allie 


由 于 安全 因素 ， 通 过 API 运 行 代码 清单 3-5 这 样 的 脚本 可 能 默认 被 禁止 ， 这 取决 于 所 运 
行 的 Elasticsearch 版 本 。 这 称 为 动态 脚本 ， 在 elasticsearch.yml 中 将 
script.disable_dynamic 设 置 为 false ， 就 可 以 打开 这 个 功能 。 替 代 的 方法 是 ， 在 每 
个 节点 的 文件 系统 中 或 是 .scripts 索引 中 存储 脚本 。 想 要 了 解 更 多 细节 ， 请 参阅 脚本 模 


块 的 文档 : www.elastic.co/guide/en/elasticsearch/ reference/current/modules-scripting.html ° 


代码 清单 3-5 ”使 用 脚本 进行 更 新 


curl -XPUT 'localhost:9200/online-shop/shirts/1' -d ' 

{ 
"Caption": "Learning Elasticsearch", 
"price": 15 

}'curl -XPOST 'localhost:9200/online-shop/shirts/1/_update' -d '{ 
"Script": "ctx. _source.price += price_diff", ---- 脚 本 将 价格 字段 增 


加 了 price_diff 所 指定 的 值 


"params": { <--- 可 选 的 参数 部 分 ， 用 于 指定 脚本 变量 的 取 值 
"price_diff" 


可 以 看 到 ， 这 里 使 用 的 是 ctx.,_source.price 而 不 是 
ctx._source['price'] 。 这 是 指向 price 字段 的 男 一 个 方法 。 在 
curl 中 使 用 这 种 方法 更 容易 一 些 ， 原 因 是 在 shell 脚 本 中 的 单 引 号 转 
义 可 能 会 令 人 困惑 。 


既然 你 已 经 学 习 了 如 何 更 新 一 篇 文档 ， 接 下 来 看 看 在 多 次 更 新 同 
时 发 生 的 情况 下 ， 如 何 管理 并 发 。 


3.5.2 ”通过 版 本 来 实现 并 发 控制 


如 采 同 一 时 刻 多 次 更 新 都 在 执行 ， 你 将 面临 并 发 的 问题 。 如 图 3-4 
所 示 ， 在 其 他 更 新 获取 原 有 文档 并 进行 修改 的 期 间 ， 有 可 能 为 一 个 更 
新 重新 索引 了 这 篇 文档 。 如 采 没 有 并 发 控制 ， 第 二 次 的 重新 索引 将 会 
取消 第 一 次 更 新 所 做 的 修改 。 


注 运 的 是 ，Elasticsearch 支 持 并 发 控制 ， 为 每 篇 文档 设置 了 一 个 版 
本 号 。 最 初 被 索引 的 文档 版 本 是 1。 当 更 新 操作 重新 索引 它 的 时 候 ， 版 
本 号 就 设置 为 "2 了。 如 果 与 此 同时 另 一 个 更 新 将 版 本 设置 为 2， 那 么 束 
会 产生 冲突 ， 目 前 的 更 新 也 会 失败 (否则 它 就 会 像 图 3-4 那 样 ， 将 男 一 
Sei) 。 可 以 重 试 这 个 更 新 操作 ， 如 果 不 再 有 冲突 ， 那 么 版 本 
PLAINS © 


为 了 理解 这 是 如 何 运作 的 ， 我 们 将 使 用 代码 清单 3-6 中 的 代码 来 重 
现 类 似 于 图 3-5 所 示 的 流程 。 


(1) 索引 文档 然后 更 新 它 (更 新 1) ° 
(2) 更 新 1 在 后 合 局 动 ， 有 一 定时 间 的 等 待 (睡眠 ) 。 


(3) 在 睡眠 期 间 ， 发 出 另 一 个 update 的 命令 (更 新 2) 来 修改 
文档 。 变 化 发 送 在 更 新 1 获取 原 有 文档 之 后 、 重 新 索引 回去 之 前 。 


(4) 由 于 文档 的 版 本 已 经 变 为 2， 更 新 1 就 会 失败 ， 而 不 会 取消 更 
新 2 所 做 的 修改 。 这 个 时 候 你 有 机 会 重 试 更 新 1， 然 后 进行 版 本 为 3 的 修 
改 (参见 代码 清单 3-6) ° 


获取 shirtl 


shirtl 
标题 : Learning ES 
价格 : 1 


shirt! 
标题 : Learning ES 
价格 : 1 


更 新 1 检索 出 现 有 的 文档 (shirt1) 


更 新 2 获取 shirtl shirt] 
标题 : Learning ES 
设置 caption= 价格 : 1 


“Knowing ES” 
shirtl 


标题 : Learning ES 
价格 : 1 


稍 后 


当 更 新 1 进行 修改 的 时 候 ， 并 发 的 
更 新 2 检索 出 同一 篇 文档 


索引 shirtl 
标题 : Learning ES 
价格 : 2 


shirtl 索 引 成 功 


更 新 2 
(处 理 数据 中 ) 


再 稍 后 


更 新 1 索引 了 修改 后 的 文档 


索引 shirtl 
标题 : Knowing ES 
价格 : 1 


shirtl 索 引 成 功 
最 终 


= 由 于 没有 并 发 控制 ， 更 新 2 并 不 知道 更 新 1 的 修改 ， 
并 覆盖 了 更 新 1 所 做 的 修改 。 


shirtl 
标题 : Knowing ES 
价格 : 1 


图 3-4 没有 并 发 控制 ， 修 改 就 可 能 会 丢失 
代码 清单 3-6 ”通过 版 本 来 管理 两 个 并 发 的 更 新 : 其 中 一 个 失败 了 


H 


% curl -XPOST 'localhost:9200/online-shop/shirts/1/_update' -d '{ 
"script": "Thread.sleep(10000); ctx._source.price = 2" =--- 更 新 

1 等 待 10 秒 ， 在 后 台 运行 (8) 

t' & 


% curl -XPOST 'localhost:9200/online-shop/shirts/1/_update' -d '{ 
"Script": "ctx. _source.caption = \"Knowing Elasticsearch\"" 

一 - - -如 果 更 新 2 在 10 秒 内 运行 完毕 ， 它 会 迫使 更 新 1 失败 ， 因 为 它 增 加 了 版 本 号 

} 


图 3-5 是 这 个 代码 清单 所 发 生 事 情 的 图 形 化 表示 。 


shirt! 

标题 : Learning ES 
价格 : 15 
版 本 : 1 


获取 shirtl 


现在 版 本 : 1 


设置 caption= 


Knowing ES 


3 shirtl 
获取 shirtl 标题 : Learning ES 
价格 : 15 


shirtl 版 本 : 1 
标题 : Learning ES 
价格 : 15 


版 本 : 1 


索引 shirtl 
标题 : ee ES 


shirt] 
D (aks aim) 标题 : Knowing ES 
价格 : 15 
版 本 : 2 
shirt1 索 引 成 功 


再 稍 后 


索引 shirtl 
me E ES 


ian shirt] 
标题 : Knowing ES 
价格 : 15 
错误 ! 版 本 已 经 是 2 了 ! 


图 3-5 ”通过 版 本 来 控制 并 发 ， 预 防 了 一 个 更 新 覆盖 男 一 个 更 新 


这 种 并 发 控制 称 为 乐观 锁 ， 因 为 它 允 许 并 和 J 的 操作 并 假设 冲突 
很 少 出 现 的 ， 真 的 出 现时 就 抛 出 错误 。 它 和 悲观 锁 是 相对 的 ， Ea 
通过 锁 住 可 能 引起 冲突 的 操作 ， 第 一 时 间 预 防 冲突 。 


1. 冲突 发 生 时 目 动 重 试 更 新 操作 
当 版 本 冲突 出 现 的 时 候 ， 你 可 以 在 目 己 的 应 用 程序 中 处 理 。 如 采 


是 更 新 操作 ， 可 以 再 次 党 试 。 但 是 也 可 以 通过 设置 
retry_on_conflict 参数 ， 让 Elasticsearch 目 动 重 试 。 


% SHIRTS="localhost:9200/online-shop/shirts" 
% curl -XPOST "$SHIRTS/1/_update?retry_on_conflict=3" -d '{ 


"script": "ctx. _source.price = 2" 


2. 索引 文档 的 时 候 使 用 版 本 号 


更 新 文档 的 另 一 个 方法 是 不 使 用 更 新 APL， Ua mo o ` 
类 型 和 ID 之 处 索引 一 个 新 的 文档 。 这 样 的 操作 会 覆盖 现 有 的 文档 ， 
种 情况 下 仍然 可 以 使 用 版 本 字段 来 进行 并 发 控制 。 为 了 实现 这 一 点 ， 
要 设置 HTTP 请 求 中 的 ver sion 人 参数。 其 值 应 该 是 a 
有 的 版 本 号 。 举 个 例子 ， 如 果 你 认为 现 有 的 版 本 已 经 是 3 了 ， 一 个 重新 
索引 的 请 求 看 上 去 是 这 样 : 


% curl -XPUT 'localhost:9200/online-shop/shirts/1? 
<strong>version=3</strong>' -d '{ 


"caption": "I Know about Elasticsearch Versioning", 
"price": 5 


} 1 


如 果 现 有 的 版 本 实际 上 不 是 3， 那 么 这 个 操作 融会 抛 出 版 本 冲突 异 
利 并 失败 ， 束 如 代码 清单 3-6 所 摘 述 的 那样 。 


有 了 版 本 号 ， 吏 可 以 安全 的 索引 和 更 新 文档 了 。 接 下 来 看 看 如 何 
删除 文档 。 


目前 为 止 都 是 使 用 的 Elasticsearch 的 内 部 版 本 ， 每 次 操作 ， 无 论 是 索引 还 是 更 新 ， 
Elasticsearch 都 会 自 动 地 增加 版 本 号 。 如 果 你 的 数据 源 是 另 一 个 数据 存储 ， 也 许 在 那里 有 版 


本 控制 系统 。 例 如 ， 一 种 基于 时 间 戳 的 系统 。 这 种 情况 下 ， 除 了 文档 ， 你 可 能 还 想 同步 版 
本 。 


为 了 使 用 外 部 版 本 ， 需 要 为 每 次 请 求 添加 vertion_type=external ， 以 及 版 本 


=: 


DOC_URL="localhost :9200/online-shop/shirts/1" 

curl -XPUT "$DOC_URL?version=101&version_type=external" -d '{ 
"caption": "This time we use external versioning", 
"price": 100 


H 


只 要 比 现 有 的 版 本 号 高 ， 而 且 Elasticsearch 也 不 会 自 


这 将 使 Flasticsearch 接 受 任何 版 本 号 ， 
己 增加 版 本 号 。 


3.6 ”删除 数据 


现在 你 已 经 知道 如 何 将 数据 发 送 到 Elasticsearch 了， 下 面 看 看 有 哪 
些 选 项 用 于 删除 某 些 已 经 索引 的 内 容 。 如 果 已 经 运行 了 本 章 中 的 代码 
清单 ， 现 在 就 有 一 些 无 用 的 数据 等 待 清除。 我 们 将 学 习 几 种 删除 数据 
的 方法 一 一 至 少 让 这 些 数据 不 再 拖 慢 搜索 和 进一步 的 索引 。 


。 删除 单个 文档 或 者 一 组 文档 。 这样 做 的 时 候 ，Elasticsearch 只 是 将 
它们 标记 为 删除 ， 所 以 它们 不 会 再 出 现 于 搜索 结果 中 ， 稍 后 
Elasticsearch 通 过 异步 的 方式 将 它们 彻底 地 从 索引 中 移出 。 

。 删除 整个 索引 。 这 是 删除 多 组 文档 的 特例 。 但 是 不 同 点 在 于 这 样 
做 的 性 能 更 好 。 主 要 的 工作 束 是 移 除 和 那个 索引 相关 的 所 有 文 
件 ， 几 乎 是 瞬间 就 能 完成 。 

。 关闭 索引 。 尺 管 这 和 删除 无 天 ， 还 是 值得 一 提 。 关 闭 的 索引 不 允 
许 读 取 或 者 写 入 操作 ， 数 据 也 不 会 加 载 到 内 存 。 这 和 删除 
Elasticsearch 数 据 类 似 ， 但 是 索引 还 是 保留 在 磁盘 上 。 它 也 很 容易 
恢复 ， 只 要 再 次 打开 关闭 的 索引 。 


3.6.1 ”删除 文档 


有 几 种 方式 移 除 单个 文档 ， 这 里 讨论 主要 的 几 个 。 


。 通过 ID 删除 单个 文档 。 如 果 只 有 一 篇 文档 要 删除 ， 而 且 你 知道 它 
的 ID， 这 样 做 非 党 不错。 

。 在 单个 请 求 中 删除 多 篇 文档 。 如 打 有 多 篇 文档 需要 删除 ， 可 以 在 
一 个 批量 请 求 中 一 次 性 删除 它们 ， 这 样 比 每 次 只 删除 一 篇 文档 更 
快 。 第 10 章 将 探讨 批量 删除 ， 还 有 批量 索引 和 批量 更 新 。 

。 删除 映射 类 型 ， 包 括 其 中 的 文档 。 这 样 的 操作 会 高 效 地 搜索 并 删 
除 该 类 型 中 所 索引 的 全 部 文档 ， 也 包括 映射 本 喘 。 


。 删除 匹配 某 个 查询 的 所 有 文档 。 CABRERA SSA RELL, Az 
行 一 个 查询 ， 并 识别 需要 删除 的 文档 。 只 有 在 这 里 可 以 指定 任何 
想 要 的 查询 ， 然 后 删除 匹配 的 文档 。 


1. 删除 单个 文档 


为 了 删除 单一 的 文档 ， 需 要 问 其 ULR 发 送 HTTP DELETE 请 求 。 
例如 : 


% curl -XDELETE 'localhost:9200/online-shop/shirts/1' 


也 可 以 使 用 版 本 来 管理 删除 操作 的 并 发 ， 就 像 索 引 和 更 新 的 并 发 
控制 一 样 。 举 个 例子 ， 假 设 某 球 衬衫 销售 一 空 ， 你 想 移 除 这 篇 文档 ， 
这 样 它 就 不 会 出 现在 搜索 结果 中 。 但 是 当时 你 可 能 并 不 知道 ， 新 的 采 
购 到 货 了 ， 而 且 库存 数据 也 已 经 被 更 新 了 。 为 了 避免 这 种 情况 ， 可 以 
eae 请 求 中 加 入 版 本 version 参数 ， 束 像 索 引 和 更 新 的 操作 那 


尽管 如 此 ， 删 除 的 版 本 控制 还 是 有 个 特殊 情况 。 一 旦 删除 了 文 
档 ， 它 束 不 复 存在 了 ， 于 古 一 个 更 新 操作 很 容易 重新 创建 该 文档 ， 尽 
管 这 是 不 应 该 发 生 的 〈 因 为 更 新 的 版 本 要 比 删除 的 版 本 更 低 ) 。 由 于 
Mua 以 用 于 不 存在 的 文档 上 ， 使 用 外 部 版 本 时 这 个 问题 尤为 突 


为 了 防止 这 样 的 问题 发 生 ，Elasticsearch 将 在 一 段 时 间 内 保留 这 篇 
文档 的 版 本 ， 如 此 它 就 能 拒绝 版 本 比 删 除 操作 更 低 的 更 新 操作 了 。 默 
认 情 况 下 这 个 时 间 段 是 60 秒 ， 对 于 多 数 情况 而 言 应 该 足以 了 ， 但 是 你 
可 以 通过 设置 elasticsearch.yml 文 件 中 或 者 是 每 个 索引 配置 中 的 
index.gc_deletes 来 修改 它 。 在 关于 管理 的 第 11 章 中 ， 我 们 将 会 
讨论 更 多 关于 索引 配置 的 管理 。 


2. 删除 映射 类 型 和 删除 查询 匹配 的 文档 


(RE Ay DURE SAR AY, LPR PNAS PAR | SABC 
档 。 要 如 此 操作 ， 需 要 向 DELETE 请 求 提 供 类 型 的 URL: 


% curl -XDELETE 'localhost:9200/online-shop/shirts 


删除 类 型 时 需要 注意 的 是 ， 类 型 名 称 只 是 文档 中 的 另 一 个 字段 。 
索引 中 的 所 有 文档 ， 无 论 它 们 属于 哪个 映射 类 型 ， 都 存放 在 同一 个 分 
片 中 。 当 发 送 前 面 的 命令 时 ，Elasticsearch 只 能 查询 属于 那个 类 型 的 文 
档 ， 然 后 删除 它们 。 当 针对 删除 类 型 和 删除 完整 索引 两 者 的 性 能 进行 
oe 。 因 为 删除 类 型 通常 要 耗费 更 长 的 时 间 和 
多 的 资源 。 


以 同样 的 方式 ， 可 以 查询 某 个 类 型 中 所 有 的 文档 并 删除 它们 ， 
Elasticsearch 人 允许 通过 称 为 通过 查询 删除 (delete by query) 的 API 来 指 
定 自 己 的 查询 ， 查 找 想 要 删除 的 文档 。 使 用 这 个 API 和 运行 查询 类 
似 ， 除 了 HTTP 请 求 变 为 DELETE ， 而 且 _search 的 端点 变 为 了 
_duery。 例 如 ， 为 了 从 聚会 索引 get-together 中 移 除 所 有 匹 
配 “Elasticsearch” 的 文档 ， 可 以 运行 这 个 命令 : 


% curl -XDELETE 'localhost:9200/get-together/_query? 


q=elasticsearch' 


第 4 革 将 详细 介绍 普通 查询 。 和 那些 查询 类 似 ， 可 以 通过 查询 特定 
的 类 型 、 多 个 类 型 、 索 引 中 的 任何 地 方 、 多 个 索引 甚至 是 整个 索引 ， 
aes 。 在 全 部 索引 中 查询 时 ， 通 过 查询 的 删除 要 特别 
IND ° 


r az 
q 


备份 。 我 们 将 在 专 讲 管理 


的 第 11 章 讨论 备份 。 


除了 小 心 之 外 ， 你 还 可 以 使 


3.6.2 ”删除 索引 


正如 你 所 想 ， 为 了 删除 一 个 索引 ， 需 要 发 送 一 个 DELETE 请 求 到 
该 索引 的 URL: 


% curl -XDELETE 'localhost:9200/get-together/' 


通过 提供 以 逗号 分 隔 的 列表 ， 还 可 以 删除 多 个 索引 。 如 末 将 索引 
名 称 改 为 _all， 其 至 可 以 删除 全 部 的 索引 。 


Pa +H 


使 用 cur1 -DELETE localhost:9269/_all 会 删除 所 有 的 文档 ， 听 上 去 是 不 是 很 
危险 ? 可 以 设置 elasticsearch.yml 中 的 action,.destructive_requires name: true 

来 预防 这 种 情况 的 发 生 。 这 会 使 得 Elasticsearch 在 删除 的 时 候 拒 绝 _all 参 数 ， 以 及 索引 名 
称 中 的 通配符 。 


删除 索引 十 很 快 的， 因为 它 基本 上 残 是 移 除了 和 索引 分 片 相关 的 
文件 。 和 删除 单独 的 文档 相 比 ， 删 除 文件 系统 中 的 文件 更 快 。 这 样 操 
作 的 时 候 ， 文 件 只 是 被 标记 为 已 删除 "在 分 段 进行 合并 时 ， 它 们 才 会 
被 移 除 。 这 里 的 合并 是 指 将 多 个 Lucene 小 分 段 组 合 为 一 个 更 大 4 分 段 的 


过 程 。 


一 个 分 段 是 建立 索引 的 时 候 所 创建 的 一 BRLucenes 3) (按照 Elasticsearch 的 术语 ， 也 称 
VEDA) 。 当 你 索引 新 的 文档 时 ， 其 内 容 不 会 添加 到 分 段 的 尾部 ， 而 只 会 创建 新 的 分 段 。 
由 于 删除 操作 只 是 将 文档 标记 为 待 删除 ， 所 以 分 段 中 的 数据 也 从 来 不 会 被 移 除 。 最 终 ， 更 
新 文档 意味 着 重新 索引 ， 数 据 就 永远 不 会 被 修改 。 


当 Elasticsearch 在 分 片上 进行 查询 的 时 候 ，Lucene 需 要 查询 它 所 有 的 分 段 ， 合 并 结果 
就 像 查询 同一 索引 中 多 个 分 片 的 过 程 。 就 像 分 片 那 样 ， 分 段 越 多 ， 搜 索 
请 求 越 慢 。 


尔 可 能 已 经 想到 ， 日 常 的 索引 操作 会 产生 很 多 这 样 的 小 分 段 。 为 了 避免 一 个 索引 中 存 
过 多 的 分 段 ，Lucene 定 期 将 分 段 进行 合并 。 


ENAX (除了 被 删除 的 文档 ) ， 然 后 利用 组 合 的 内 容 创 建新 
、 更 大 的 分 段 。 这 个 过 程 需 要 资源 ， 尤 其 是 CPU 和 位 副 的 /O。 幸运 的 是 ， 合 并 操作 是 异 
> 运行 的 ， Blasticsearch 也 允许 配置 相 : 关 的 若干 选项 。 第 12 章 将 讨论 更 多 关于 这 些 选项 的 内 
， 那 里 你 将 学 习 如 何 提 升 素 引 、 更 新 和 删除 操作 的 性 能 。 


ae 


L 
时 


ae 


n 


3.6.3 ”关闭 索引 


除了 删除 索引 ， 还 可 以 选择 天 闭 它们 。 如 琳 关 闭 了 一 个 索引 ， 整 
无 法 通过 Elasticsearch 来 读 取 和 写 入 其 中 的 数据 ， 直 到 再 次 打开 它 。 当 
使 用 应 用 日 志 这 样 的 流 式 数 据 时 ， 此 操作 非常 有 用 。 你 会 在 第 9 章 了 解 
到 ， 将 流 式 数据 以 基于 时 间 的 索引 方式 来 存储 是 非常 棒 的 主意 。 例 
如 ， 每 天 创建 一 个 索引 。 

在 现实 世界 中 ， 最 好 永久 地 保存 应 用 日 志 ， 以 防 要 查看 很 久之 前 
的 信息 。 男 一 方面 ， 在 Elasticsearch 中 存放 大 量 数 据 需 要 增加 资源 。 对 
于 这 种 使 用 案例 ， 关 闭 旧 的 索引 非常 有 意义 。 你 可 能 并 不 需要 那些 数 
据 ， 但 是 也 不 想 删 除 它 们 。 


为 了 关闭 在 线 商 店 的 索引 ， 发 送 HTTP POST 请 求 到 该 索引 URL 的 


_Close 端点 : 


% curl -XPOST 'localhost:9200/online-shop/_close' 


为 了 再 次 打开 ， 要 运行 类 似 的 命令 ， 只 十 将 端点 换 为 _open : 


% curl -XPOST 'localhost:9200/online-shop/_open' 


一 旦 索引 被 关闭 ， 它 在 Elasticsearch 内 存 中 唯一 的 痕迹 是 其 元 数 
据 ， 如 名 字 以 及 分 斤 的 位 置 。 如 果 有 足够 的 磁盘 空间 ， 而 且 也 不 确定 
征 否 需要 在 那个 数据 中 再 次 搜索 ， 关 闭 索 引 要 比 删 除 索 引 更 好 。 头 闭 
安心 ， 永 远 可 以 重新 打开 被 天 闭 的 索引 ， 然 后 在 其 中 
次 搜索 。 


3.6.4 重新 索引 样本 文档 


第 2 章 使 用 了 本 书 的 代码 样 例 来 索引 文档 。 运 行 其 中 的 populate.sh 


脚本 ， 删 除 本 章 中 已 经 创建 的 get-together 索 引 ， 然 后 重新 索引 样本 文 


档 。 


如 果 碍 疝 了 populate.sh 脚 本 和 mapping.json 中 的 映射 定义 ， 你 将 认 


识 本 章 所 讨论 的 不 同类 型 的 字段 。 


某 苑 映射 和 索引 选项 ， 如 分 析 设 置 ， 将 在 后 面 的 章节 进行 介绍 。 


现在 ， 运 行 populate.sh 来 为 第 4 章 准 备 getrtogether 索 引 ， 我 们 将 要 探索 
搜索 功能 。 代 码 样 例 提供 了 用 于 搜索 的 样本 数据 。 


3.7 小 绪 


在 继续 学 习 之 前 ， 看 看 本 章 中 所 探讨 的 内 容 。 


映射 定义 了 文档 中 的 字段 ， 以 及 这 些 字 段 是 如 何 被 索引 的 。 我 们 
说 Elasticsearch 是 无 须 模 式 (schema) 的 ， 因 为 映射 是 目 动 扩展 
的 ， 不 过 在 实际 生产 中 ， 需 要 经 常 控制 哪些 被 索引 ， 哪 些 被 存 
储 ， 以 及 如 何 存储 。 

文档 中 的 多 数字 段 是 核心 类 型 ， 如 字符 串 和 数值 。 这 些 字 段 的 索 
引 方 式 对 于 Elasticsearch 的 表现 以 及 搜索 结果 的 相关 性 有 着 很 大 的 
影响 。 例 如 ， 第 5 章 介 绍 的 分 析 设 置 。 

单一 字段 也 可 以 包含 多 个 字段 或 取 值 。 我 们 了 解 了 数组 和 多 字 
段 ， 它 们 让 你 在 单一 字段 中 拥有 同一 核心 类 型 的 多 个 实例 。 

除了 用 于 文档 的 字段 ，Elasticsearch 还 提供 了 预定 义 的 字段 ， 如 
_source 和 _all 。 配 置 这 些 字 段 将 修改 某 些 你 并 没有 显 式 提供 
给 文档 的 数据 ， 但 是 对 于 性 能 和 功能 都 有 很 大 影响 。 例 如 ， 可 以 
决定 哪些 字段 需要 在 _al1 里 索引 。 

由 于 Elasticsearch 在 Lucene 分 段 里 存储 数据 ， 而 分 段 一 旦 创建 就 不 
会 修改 ， 因 此 更 新 文档 意味 着 检索 现存 的 文档 ， 将 修改 放 入 即将 
索引 的 新 文档 中 ， 然 后 删除 旧 的 索引 。 

当 Lucene 分 段 异 步 合 并 时 ， 职 会 移 除 竺 删 的 文档 。 这 也 是 为 什么 
删除 整个 索引 要 比 删 除 单个 或 多 个 文档 要 快 一 一 索引 删除 只 是 意 
味 着 移 除 磁 盘 上 的 文件 ， 而 且 无 须 合 并 。 

在 索引 、 更 新 和 删除 过 程 中 ， 可 以 使 用 文档 版 本 来 管理 并 发 问 
题 。 对 于 更 新 而 言 ， 如 果 因 为 并 发 问题 而 导致 更 新 失败 了 ， 可 以 
告诉 Elasticsearch 上 自动 重 试 。 


第 4 章 ”搜索 数据 


本 章 主 要 内 容 
。 Elasticsearch 搜 索 请 求 和 响应 的 结构 
。 lasticsearch 过 滤器 以 及 它们 和 查询 的 区 别 
。 过 滤器 的 位 集合 和 缓存 
。 使 用 Elasticsearch 所 支持 的 查询 和 过 滤 絮 


目前 为 止 ， 我 们 已 经 探索 了 如 何 将 数据 放 入 Elasticsearch， 现 在 来 
讨论 下 如 何 将 数据 从 Elasticsearch 中 拿 出 来 ， 那 就 是 通过 搜索 。 毕 苋 ， 
如 果 不 能 搜索 数据 ， 那 么 将 其 放 入 搜索 引擎 的 意义 又 何在 呢 ? AA 
是 ，Elasticsearch 提 供 了 丰富 的 接口 来 搜索 数据 ， 酒 盖 了 Lucene 所 有 的 
搜索 功能 。 因 为 Elasticsearch 人 允许 构建 搜索 请 求 的 格式 很 灵活 ， 请 求 的 
构建 有 无 限 的 可 能 性 。 要 了 解 哪 些 查询 和 过 滤器 的 组 合适 用 于 你 的 数 
据 ， 最 佳 的 方式 就 是 进行 实验 ， 因 此 不 要 害怕 在 项 目的 数据 上 爱 试 这 
些 组 合 ， 这 样 才能 弄 清 哪些 更 适合 你 的 需求 。 


本 章 将 再 次 使 用 聚会 网 站 所 生成 的 数据 集 ， 在 之 前 的 样 例 中 我 们 已 经 接触 了 这 些 数 
据 。 该 数据 集 包 含 两 种 不 同类 型 的 文档 : 分 组 (group) 和 活动 (event) 。 为 了 学 习 样 例 
和 进行 你 自己 的 查询 ， 下 载 并 运行 populate.sh 的 脚本 来 构造 一 个 Elasticsearch 索 引 。 首 次 运 
行 脚本 将 会 创建 样 例 。 如 果 想 紧 跟 本 书 的 内 容 ， 请 再 次 运行 这 个 脚本 。 


若 要 下 载 脚 本 ， 请 参考 本 书 的 源 代码 。 


ra) 


FERS TT ONT F At BI RS RAZA ABER, ER 
可 以 理解 在 普通 情况 下 ， 搜 索 请 求 和 结果 看 上 去 长 什么 样子 。 然 后 我 
们 继续 讨论 查询 和 作为 搜索 API 主 要 元 素 之 一 的 过 滤器 DSL。 接 下 来 讨 
REWER KA, Rae Weds Eo MRR 
对 Elasticsearch 如 何 计算 文档 得 分 的 细 市 感到 好 奇 ， 不 要 着 急 ， 第 6 章 
将 对 此 进行 探讨 ， 那 里 都 是 关于 搜索 的 相关 性 。 最 后 ， 我 们 提供 了 一 
个 快速 而 简易 的 指南 ， 对 于 特定 应 用 ， 它 可 以 帮助 你 移 择 查询 和 过 渡 


器 组 合 的 类 型 。 如 末 感 觉 有 太 多 类 型 的 查询 和 过 滤器 ， 那 么 直接 来 看 
看 这 个 指南 吧 。 


在 开始 之 前 ， 先 看 看 在 执行 Elasticsearch 搜 索 的 时 候 ， 都 发 生 了 些 
什么 〈 见 图 4-1) ° REST API 搜 索 请 求 被 发 送 到 所 连接 的 节点 ， 该 节 
点 根据 要 查询 的 索引 ， 将 这 个 请 求 依次 发 送 到 所 有 的 相关 分 片 〈 主 分 
片 或 者 副本 分 片 ) 。 从 所 有 分 所 收集 到 足够 的 排序 和 排名 信息 之 后 ， 
只 有 包 侣 所 需 文 档 的 分 片 才 被 要 求 返 回 相 关内 容 。 


这 种 搜索 路 由 的 行为 是 可 以 配置 的 。 图 4-1 展 示 了 默认 的 行为 ， 称 
为 查询 后 获取 (query_then_fetch) 。 之 后 在 第 10 章 我 们 将 介绍 如 何 改 
变 这 个 行为 。 现 在 先 看 看 所 有 Elasticsearch 搜 索 请 求 所 共有 的 基本 结 


构 。 


第 1 步 : 转发 请 求 第 2 步 : 聚集 结果 


搜索 
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Partial get-together0 get-together) 
results (EAH) (副本 分 片 ) 


主 分 片 ) 
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get-together 
(副本 分 片 ) 


节点 1 


get—togetherl 
(副本 分 片 ) 


节点 1 节点 2 


图 4-1 搜索 请 求 是 如 何 路 由 的 。 索 引 包含 两 个 分 片 ， 每 个 分 片 有 一 个 副本 分 请 。 在 给 文档 定 
位 和 评分 后 ， 只 会 获取 排名 前 10 的 文档 


4.1 搜索 请 求 的 结构 


Elasticsearch 的 搜索 是 基于 JSON 文 档 或 者 是 基于 URL 的 请 求 。 请 
求 被 发 送 到 服务 器 ， 由 于 所 有 搜索 请 求 遵 循 同 样 的 格式 ， 理 解 对 于 每 
个 搜索 请 求 所 能 修改 的 模块 ， 是 非常 有 帮助 的 。 在 讨论 不 同 的 模块 之 
前 ， 我 们 需要 探讨 搜索 请 求 的 范围 。 


41.1 ”确定 搜索 范围 


所 有 的 REST 搜 索 请 求 使 用 _search 的 REST 端 点 ， 既 可 以 是 GET 
请 求 ， 也 可 以 是 POST 请 求 。 既 可 以 搜索 整个 集群 ， 也 可 以 通过 在 搜 
索 URL 中 指定 索引 或 类 型 的 名 称 来 限制 范围 。 代 码 清单 4-1 提 供 了 搜索 
URL 的 样 例 ， 它 们 用 于 限制 搜索 的 范围 。 


代码 清单 41 “在 URL 中 限制 搜索 的 范围 


together 索引 

% curl 'localhost:9200/get-together/event/_search' - 
get-together 索 引 中 搜索 事件 类 型 
% curl 'localhost:9200/_all/event/_search' -d '...' ---- 在 全 部 索引 


中 搜索 所 有 的 事件 类 型 

% curl 'localhost:9200/*/event/_search' -d '...' 

% curl 'localhost:9200/get-together,other/event,group/_search' -d 

'1.,' 。--- 在 get-together 和 其 他 索引 中 搜索 事件 和 分 组 类 型 
% curl ‘localhost :9200/+get-toge*,-get-together/_search' -d 

'...' -<-- -搜索 所 有 和 名字 以 get -toge 开 头 的 索引 ， 但 是 不 包括 get-together 


还 可 以 使 用 别名 来 搜索 多 个 索引 。 这 个 方法 经 常用 于 搜索 所 有 基 
于 时 间 鹤 的 和 索引。 想 想 看 以 logstash-yymmdd 格 式 来 命名 的 索引 ， 一 个 
logstash 的 别名 束 可 以 指向 所 有 相关 索引 。 这 样 ， 可 以 进行 一 个 基础 的 
搜索 ， 将 其 限制 在 所 有 基于 logstash 的 索引 : curl 
'localhost:9200/ logstash/_search' 。 为 了 获得 更 好 的 性 
能 ， 尽 可 能 地 将 查询 限制 在 最 小 数量 的 索引 和 类 型 ， 原 因 是 任何 
Elasticsearch 不 必 搜 索 的 内 容 都 意味 着 可 以 有 更 快 的 响应 速度 。 请 记 住 
每 个 必须 发 送 到 所 有 索引 分 搬 的 搜索 请 求 。 搜 索 请 求 发 送 到 越 多 的 索 
引 ， 那 么 就 会 涉及 越 多 的 分 厂 。 


现在 知道 了 如 何 限制 搜索 请 求 的 范围 ， 下 一 步 束 是 讨论 搜索 请 来 
的 基本 模块 。 


4.1.2 ”搜索 请 求 的 基本 模块 


一 旦 选择 了 要 搜索 的 索引 ， 束 需要 配置 搜索 请 求 中 最 为 重要 的 飘 
块 。 这 些 模块 涉及 文档 返回 的 数量 ， 选 择 最 佳 的 文档 返回 ， 以 及 配置 
不 布 望 哪些 文档 出 现在 结果 中 。 


。 query 一 一 这 是 搜索 请 求 中 最 重要 的 组 成 部 分 ， 它 配置 了 基于 评 
分 返回 的 最 佳 文档 ， 也 包括 了 你 不 希望 返回 哪些 文档 。 该 模块 使 
用 查询 DSL 和 过 滤器 DSL 来 配置 。 一 个 例子 就 是 使 用 标题 中 的 关 
键 词 “elasticsearch” 来 搜索 全 部 的 事件 ， 限 定 到 了 今年 的 事件 。 

。 Size 代表 了 返回 文档 的 数量 。 

e from——fllsize 一 起 使 用 ，from 用 于 分 页 操作 。 需 要 注意 的 
是 ， 为 了 确定 第 2 页 的 10 项 结果 ，Elasticsearch 必 须要 计算 前 20 个 
结果 。 如 果 结 果 集 合 不 断 增 加 ， 获 取 某 些 靠 后 的 翻 页 将 会 成 为 代 
价 高 昂 的 操作 。 

e source 指定 _source 字 段 如 何 返 回 。 默 认 是 返回 完整 的 
_source 字段 。 通 过 配置 source, 将 过 滤 返 回 的 字段 。 如 果 
索引 的 文档 很 大 ， 而 且 无 须 结果 中 的 全 部 内 容 ， 就 使 用 这 个 功 
能 。 请 注意 ， 如 果 想 使 用 它 ， 就 不 能 在 索引 映射 中 关闭 _source 
字段 。 请 参考 下 面 的 注意 事项 ， 来 看 看 使 用 field 和 _source 
之 间 的 区 别 。 

。 sort 一 一 默认 的 排序 是 基于 文档 的 得 分 。 如 果 并 不 关心 得 分 ， 
或 者 期 望 许 多 文档 的 得 分 相同 ， 添 加 额外 的 sort 将 帮助 你 控制 
哪些 文档 被 返回 。 


在 Elasticsearch 的 版 本 1 之 前 ，field 是 用 于 过 滤 返 回 字段 的 组 件 。 这 还 是 可 能 的 ， 其 
行为 就 是 返回 可 用 的 存储 字段 。 如 果 没 有 存储 的 字段 可 使 用 ， 字 段 就 从 源 (source) 获 

取 。 如 果 在 索引 中 没有 显示 地 存储 字段 ， 最 好 使 用 _source 模 块 。 如 果 使 用 了 _source 
过 滤 ，Elasticsearch 就 没有 必要 在 获取 _source 中 的 字段 之 前 ， 首 先 检 查 存 储 的 字段 。 


1. 结果 起 始 和 页 面 大 小 


命名 适宜 的 from 和 size 字 段 ， 用 于 指定 结果 的 开始 点 ， 以 及 
每 “页 ”结果 的 数量 。 举 个 例子 ， 如 果 发 送 的 from 值 是 7，size 值 是 
5， 那 么 Elasticsearch 将 返回 第 8、9、10、11 和 12 项 结果 〈 由 于 from 参 
数 是 从 0 开始 ， 指 定 7 就 是 从 第 8 项 结果 开始 ) 。 如 果 没 有 发 送 这 两 个 参 


数 ，Elasticsearch 默 认 从 第 一 项 结果 开始 (第 0 项 结果 ) ， 在 回复 中 返 
回 10 项 结果 。 有 两 种 不 同 的 方式 加 Elasticsearch 发 送 搜索 请 求 。 


下 一 节 会 讨论 如 何 发 送 基于 URL 的 搜索 请 求 。 之 后 将 讨论 基于 请 


求 主 体 的 搜索 请 求 。 刚 刚 讨 论 的 搜索 请 求 基本 模块 在 这 两 种 方式 下 都 
可 以 使 用 。 


2. 基于 URL 的 搜索 请 求 


这 个 部 分 将 使 用 之 前 讨论 的 4 个 基本 模块 来 创建 基于 URL 的 搜索 请 
求 。 基 于 URL 的 搜索 对 于 快速 的 cunl 请 求 而 言 是 非常 有 用 的 。 并 非 所 
有 的 搜索 特性 都 是 可 以 用 在 基于 URL 的 搜索 中 。 在 代码 清单 4-2 中 ， 搜 
索 请 求 将 会 搜索 所 有 的 活动 ， 不 过 只 需要 第 2 页 的 10 项 结 采 。 


代码 清单 4-2 使 用 from 和 size 参 数 来 实现 结果 分 页 


% curl 'localhost:9200/get-together/_search?from=10&size=10' <--- 


请 求 匹 配 了 所 有 文档 ，URL 中 发 送 了 from 和 size 参数 


代码 清单 4-3 创 建 了 搜索 请 求 ， 返 回 默认 的 前 10 个 活动 ， 不 过 起 按 
照 活动 日 期 的 升序 来 排列 的 。 如 采 需 要 ， 可 以 综合 这 两 个 搜索 请 求 的 
配置 。 兴 试 同 样 的 搜索 请 求 ， 将 排序 换 为 降序 (desc) ， 检 查 一 下 活 
动 的 排序 是 否 发 生 改 变 。 


代码 清单 4-3 ”改变 结果 的 顺序 


% curl 'localhost:9200/get-together/_search?sort=date:asc' 


求 匹配 了 所 有 文档 ， 但 是 默认 返回 前 19 项 结果 ， 按 照 日 期 的 升序 排列 


代码 清单 4-4 限 制 了 回复 中 的 source 字段 。 假 想 一 下 ， 你 只 需要 
活动 的 标题 和 日 期 。 此 外 ， 你 希望 活动 按照 日 期 排序 。 这 里 配置 了 
_source 模块 ， 只 请 求 了 标题 和 日 期 。 在 下 一 章 中 ， 当 我 们 讨论 基于 
请 求 主体 的 搜索 时 ， 将 会 解释 更 多 关于 _source 的 选项 。 代 码 清 单 4- 
4 中 的 回复 展示 了 1 个 命中 结 


代码 清单 44 “在 你 期 望 的 回复 中 限制 source 的 字段 


Tl 


% curl 'localhost:9200/get-together/_search? 
sort=date:asc&_source=title,date' <--- 请 求 匹 配 所 有 的 文档 ， 但 是 默 i 
回 前 10 项 结果 ， 这 些 结果 按照 日 期 升 部 排列 。 你 只 想 要 2 个 字段 ， 标题 和 日 期 
{ =--- 展 示 回 复 中 的 1 个 命中 结果 
_"index": "get-together", 
_"type": "event", 
"jd" g "114", 
"score": null, ~--- 文 档 得 分 是 hull1， 原 因 是 你 正在 使 用 sort 参数 ， 因 此 不 
会 为 文档 计算 分 数 
_"source": { <--- 被 过 滤 后 的 _source 文档 目前 只 包含 过 滤 的 字段 
"date": "2013-09-09T18:30", 
"title": "Using Hadoop with Elasticsearch" 


1378751400000 


目前 为 止 ， 只 用 了 match_al1 查询 来 创建 搜索 请 求 。 查询 和 过 
滤 絮 的 DSL 将 在 4.2 市 中 探讨 。 但 是 下 面 这 件 事 情 还 是 非常 重要 的 ， 那 
就 是 如 何 创建 基于 URL 的 搜索 请 求 ， 从 而 只 返回 标题 中 合 
有 "elasticsearch” 字 样 的 文档 。 同 样 ， 这 里 按照 日 期 来 排序 。 请 注意 
q=title:elasticsearch 部 分 。 这 里 指定 了 在 标题 字段 中 查询 天 
键 词 “elasticsearch”， 如 代码 清单 4-5 所 示 。 


代码 清单 4-5 “更改 结果 的 排序 


% curl 'localhost:9200/get-together/ 
_search?sort=date:asc&q=title:elasticsearch' <---i# KZACT hain 


中 含有 “elasticsearch” 字 样 的 活动 


使 用 q= 表明 你 希望 在 搜索 请 求 中 提供 一 个 查询 。 使 用 
title:elasticsearch 表明 了 正在 title 字段 中 查找 关键 
词 “elasticsearch”。 


请 目 己 演 试 这 个 查询 ， 并 且 检 视 返 回 的 内 容 ， 其 中 
有 “elasticsearch” 字 样 的 活动 。 尺 量 尝试 其 他 的 关键 词 和 


会 包含 标题 
Jt 


A 
Fee 此 外 


还 可 以 在 一 个 查询 中 组 合 所 提 到 的 搜索 API 模 块 。 


现在 你 已 经 适应 了 使 用 URL 的 搜索 请 求 ， 接 下 来 将 学 习 基 于 请 来 
主体 的 搜索 请 求 。 


413 ”基于 请 求 主体 的 搜索 请 求 


前 一 节 展 示 了 如 何在 基于 URL 的 查询 中 使 用 基础 的 搜索 请 求 模 
块 。 如 果 使 用 命令 行 模式 ， 这 征 一 种 与 Elasticsearch 区 互 很 好 的 方式 。 
当 执行 更 多 高 级 搜索 的 时 候 ， 采 用 基于 请 求 主体 的 搜索 会 使 得 你 拥有 
更 多 的 灵活 性 和 选择 性 。 即 使 是 使 用 基于 请 求 主体 的 搜索 ， 某 些 模 块 
同样 可 以 通过 URL 来 提供 。 由 于 前 一 节 已 经 讨论 了 所 有 基于 URL 的 配 
置 ， 因 此 在 本 市 中 我 们 将 集中 讨论 请 求 主体 。 代 码 清单 4-6 中 的 例子 匹 
配 了 get-together 索 引 所 有 的 文档 ， 并 搜索 了 其 中 的 第 二 页 。 


代码 清单 4-6 ”使 用 from 和 size 参 数 来 实现 结果 分 页 


% curl 'localhost:9200/get-together/_search' -d '{ 
"query": { 
"match_all": {} 


}, 

"from": 10, <--- 返 回 从 第 10 项 开始 的 结果 
"Size": 10 =---- 总 共 返 回 最 多 10 个 结果 
1 


你 可 能 注意 到 了 “gquery” 部 分 ， 这 是 每 个 查询 中 的 一 个 对 象 ， 现 在 
还 不 用 担心 "match_all" 部 分 。 在 4.2 节 有 关 查 询 和 过 滤器 DSL 的 内 
容 中 ， 我 们 将 探讨 这 个 。 


1. 结果 中 返回 的 字段 


下 一 个 所 有 搜索 请 求 共 享 的 元 素 是 对 于 每 个 匹配 文档 而 言 ， 
Elasticsearch 所 应 该 返回 的 字段 列表 。 这 是 通过 在 搜索 请 求 中 发 送 
_source 模 块 来 指定 的 。 如 果 请 求 中 没有 指定 _source , 
Elasticsearch 默 认 返 回 整 个 _source， 或 者 ， 如 果 _source 没 有 存 


fa, AAR AiR ACCA cee: _id + _type » _index#ll 
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代码 清单 4-7 使 用 了 之 前 的 查询 ， 返 回 了 每 个 匹配 分 组 的 name 和 
date 字段 。 


代码 清单 4-7 ”过滤 返回 的 _source 内 容 


% curl 'localhost:9200/get-together/_search' -d '{ 


"query": { 
"match_all": {} 


"name", "date"] ~-- -搜索 回复 中 返回 名 字 和 日 期 字段 


2. _source 返 回 字段 中 的 通配符 


你 不 仅 可 以 返回 字段 列表 ， 还 可 以 指定 通配符 。 例 如 ， 如 果 想 同 
时 返回 "name" 和 "nation" 字段 ， 可 以 这 样 配置 _source: 
"na*"。 也 可 以 使 用 通 配 字 符 串 的 数组 来 指定 多 个 通 配 行 ， 例 如 
_source:["name.*", "address.*"] œ 


不 仅 可 以 指定 哪些 字段 需要 返回 ， 还 可 以 指定 哪些 字段 无 须 返 
回 。 代 码 清单 4-8 给 出 了 一 个 例子 。 


代码 清单 4-8 ”通过 include 和 exclude 这 滤 返 回 的 _source 内 容 


% curl 'localhost:9200/get-together/_search' -d '{ 
"query": { 
"match_all": {} 


"include": ["location.*", "date"], =---- 在 搜索 回复 中 返回 以 Location 
头 的 字段 和 日 期 字段 

"exclude": ["location.geolocation"] =--- 不 要 返回 
location.geolocation 字段 

} 
} 1 


3. 结果 的 排序 


大 多 搜索 最 后 涉及 的 元 素 都 是 结果 的 排序 (sort) 。 如 果 没 有 
指定 Sort 排序 选项 ，Elasticsearch 返 回 匹配 的 文档 的 时 候 ， 按 照 
_score 取 值 的 降序 来 排列 ， 这 样 最 为 相关 的 (得 分 最 高 的 ) 文档 就 
会 排名 在 前 。 为 了 对 字段 进行 升序 或 降序 排列 ， 指 定 映 射 的 数组 ， 而 
不 是 字段 的 数组 。 通 过 在 sort 中 指定 字段 列表 或 者 是 字段 映射 ， 可 
以 在 任意 数量 的 字段 上 进行 排序 。 例 如 ， 使 用 之 前 的 组 织 者 搜索 ， 返 
回 结果 时 可 以 先 按 照 创 建 日 期 来 排序 ， 从 最 老 的 开始 。 然 后 根据 get- 
together 分 组 的 名 字 来 排序 ， 按 照 倒 排 的 字母 顺序 。 最 后 ， 按 照 
_score 得 分 来 排序 ， 如 代码 清单 4-9 所 示 。 


代码 清单 4-9 按照 日 期 (FHE) 、 名 称 (降序 ) 和 _score 来 排列 的 结果 


% curl 'localhost:9200/get-together/_search' -d '{ 
"query": { 
"match_all": {} 


{"created_on": "asc"}, =---- 首 先 按 照 创 建 日 期 来 排序 ， 从 最 老 的 到 最 新 的 
{"name": "desc"}, =--- 然 后 按照 分 组 的 名 称 来 排序 ， 按 倒 排 的 字母 顺序 
"_score" =--- 最 终 ， 按 照相 关 性 得 分 (_score) 来 排序 


当 在 多 值 字段 (如 tags ) 上 排序 时 ， 你 无 法 知道 排序 怎样 使 用 这 些 数值 。 系 统 将 选 
择 一 个 值 来 参加 排序 ， 但 是 你 不 知道 是 哪个 。 对 于 分 析 过 的 字段 而 言 ， 同 样 如 此 。 一 个 经 
过 分 析 的 字段 ， 通 常 也 会 产生 多 个 词 条 。 因 此 最 好 根据 非 分 析 或 者 数值 型 字段 来 进行 排 


z 


4. 实践 中 的 基础 模块 


现在 我 们 已 经 涵盖 了 基本 的 搜索 模块 ， 代 码 清 单 4-10 展 示 了 一 个 
搜索 请 求 的 样 例 ， 使 用 了 所 有 的 基础 模块 。 


代码 清单 4-10 ”使 用 4 个 元 素 的 查询 : 范围 、 分 页 、 字 段 和 排序 


% curl 'localhost:9200/get-together/group/_search' -d' 


"query": { 
"match_all": {} 


---- 从 第 1 个 (第 0 个 ) 结果 开始 


"Size": 10, =--- 总 共 返 回 10 个 结果 

"_source": ["name", "organizer", "description"], 二 --- 包 含 了 分 引 
名 称 、 组 织 者 和 分 组 描述 

"sort": [{"created_on": "desc"}]  。--- 按 照 created_on 字段 的 降序 来 


, no e iL 需要 先 了 解 另 一 项 内 容 : 
利索 回复 的 结构 。 


4.1.4 理解 回复 的 结构 


接 下 来 看 一 个 搜索 的 样 例 ， 以 及 其 结果 啊 应 是 什么 样子 。 代 码 清 
单 4-11 搜 索 了 关于 “elasticsearch” 的 分 组 。 为 了 人 简洁， 这 里 使 用 了 基于 
URL 的 搜索 。 


i 
Rat 


代码 清单 4-11 样 例 搜 索 请 求 和 


% curl 'localhost:9200/_search? 
q=title:elasticsearch&_source=title,date' 


"took": 2, =--- 查 询 所 用 的 训 秒 数 
"timed_out": false, ~--- 表 明 是 否 有 分 片 超 时 ， 也 就 是 说 是 否 只 返回 了 
部 分 结果 
"_shards": { 
"total": 2， =---- 成 功 响应 该 请 求 和 未 能 成 功 响应 该 请 求 的 分 片 数量 
"successful": 2, 
"failed": 0 


"hits": { =---- 回 复 中 包含 了 命中 ( hits 的 键 ， 其 值 是 命中 文档 的 数组 
"total": 7， “=--- 该 搜索 请 求 所 有 匹配 结果 的 数量 
"max_score": 0.9904146, ~-- - -这 个 搜索 结果 中 的 最 大 得 分 
"hits": [ <--- 命 中 (hits) 关键 词 元 素 中 的 命 
Pa 


{ 


"index": "get-together", <--- 结 果 文 档 的 索引 
"_type": "event", <--- 结 果 文 档 的 Elasticsearch 类 型 
" jd"; "103", .结果 文档 的 ID 
"_ score": 0.9904146, ~- - -结果 的 相关 性 得 分 
"_source": { 

"date": "2013-04-17T19:00", <-- -请求 的 _source 字段 


(本 例 中 是 标题 和 日 期 ) 
"title": "Introduction to Elasticsearch" 
} 
ty 
"index": "get-together", 
"type": "event", 
"id": "105", 
"_ score": 0.9904146, 
"source": { 
"date": "2013-07-17T18:30", 
"title": "Elasticsearch and Logstash" 
} 


7 
ee -其 他 的 命中 结果 ， 为 了 简洁 这 里 略 去 


请 记 住 ， 如 果 没 有 存储 文档 的 _source 或 者 是 fields , AA 
无 法 从 Elasticsearch 中 获取 数值 ! 


现在 你 已 经 熟悉 了 搜索 请 求 的 基本 模块 ， 还 有 一 个 模块 尚未 仔细 
探讨 ， 那 束 是 查询 和 过 滤 锅 DSL。 这 是 有 意 为 之 的 ， 因 为 这 个 话题 实 
在 是 太 大 了 ， 和 需要 单独 的 一 让 来 讨论 。 


4.2 ”介绍 查询 和 过 滤器 DSL 


前 一 节 介 绍 了 一 个 搜索 请 求 的 基本 模块 。 我 们 谈 及 了 返回 项 目的 
数量 ， 以 及 使 用 from 和 size 参数 来 支持 分 页 功能 。 我 们 也 讨论 了 排 
序 和 过 滤 返 回 的 源 字 段 。 这 个 章 和 将 解释 尚未 充分 讨论 的 基础 模块 ， 
就 是 查询 部 分 。 目 前 为 止 ， 你 已 经 使 用 了 match_al1 这 个 基本 的 查 
询 模 块 。 请 查阅 代码 清单 4-12 来 看 看 它 是 如 何 运 作 的 。 


代码 清单 4-12 使 用 请 求 主体 的 基本 搜索 请 求 


% curl 'localhost:9200/get-together/_search' -d '{ 
"query": { <--- 搜 索 API 中 的 查询 模块 
"match_all": {} =---- 查 询 API 的 基本 样 例 


J 
} 1 


ATEH —“Smatch iA Kk match all 查询 ， 并 且 将 使 
用 查询 DSL 中 的 过 滤 查 询 ， 在 搜索 请 求 中 添加 过 滤器 DSL 中 的 term 过 
滤器 。 此 后 ， 我 们 深入 细节 ， 看 看 过 滤器 和 查询 之 间 的 区 别 。 接 下 来 
是 看 看 某 些 其 他 的 基本 查询 和 过 滤器 。 最 后 使 用 复合 查询 和 其 他 更 高 
级 的 查询 、 过 滤器 来 总 结 本 节 。 在 讨论 分 析 器 之 前 ， 我 们 先 帮 你 选择 
合适 的 查询 。 


4.2.1 _ match 查询 和 term 过 滤器 


目前 为 止 所 进行 的 几乎 所 有 搜索 请 求 都 是 返回 全 部 的 文档 。 本 节 
将 展示 两 种 方法 来 限制 返回 文档 的 数量 。 我 们 从 一 个 match 查询 开 
会 发 现 主题 含有 “Hadoop” 单 词 的 分 组 。 代 码 清单 4-13 展 示 了 这 
六 搜索 请 求 。 


代码 清单 413 match 查询 


% curl 'localhost:9200/get-together/event/_search' -d '{ 
"query": { 
"match": { <---match 查询 展示 了 如 何 搜索 标题 中 有 “hadoop” 字 样 的 活动 
头 


"title": "hadoop" ~--- 注 意 查 询 单词 “Hadoop” 是 以 小 写 的 h 
} 
} 


PO 
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档 的 标题 是 “Using Hadoop with Elasticsearch.”。 该 文档 的 得 分 是 
1.3958796。 可 以 修改 搜索 关键 词 *Hadoop”， 使 用 大 写 的 H 开 头 。 结 果 
是 一 样 的 。 如 有 果 不 相 信 读 者 目 己 可 以 试 试看 。 


现在 假想 你 拥有 一 个 站 点 ， 按 照 组 织 者 (host) 将 活动 进行 分 
组 ， 这 样 就 可 以 获得 一 个 漂 腕 的 聚集 列表 ， 包 括 每 个 组 织 者 的 活动 数 
量 。 点 击 Andy 组 织 的 活动 ， 会 找到 所 有 Andy 组 织 的 活动 。 可 以 通过 匹 
配 查 询 来 创建 一 个 搜索 请 求 ， 在 host 字段 中 查找 Andy。 如 果 创 建 了 
该 搜索 请 求 并 执行 了 它 ， 你 将 看 到 Andy 组 织 了 3 个 活动 ， 得 分 都 一 
样 。 你 可 能 会 问 :“ 为 什么 ? ”请 阅读 第 6 划 ， 看 看 评分 机 制 是 如 何 运作 
的 。 现 在 古 时 候 介绍 过 滤器 了 。 


过 滤器 和 本 章 讨论 的 查询 类 似 ， 但 是 它们 在 评分 机 制 和 搜索 行为 
的 性 能 上 ， 有 所 不 同 。 不 像 查 询 会 为 特定 的 词 条 计算 得 分 ， 搜 索 的 过 
滤器 只 是 为 “文档 是 否 匹 配 这 个 查询 ”返回 人 简单 的 “是” 或“ 否 ” 的 答 
案 。 图 4-2 展 示 了 得 询 和 过 滤器 之 间 的 主要 差别 。 


缓存 不 匹配 : 缓存 匹配 : 
跳 过 文档 返 


图 4-2 ”由 于 不 计算 得 分 ， 过 滤器 所 需 的 处 理 更 少 ， 并 且 可 以 被 缓存 


由 于 这 个 差异 ， 过 滤器 可 以 比 普通 的 查询 更 快 ， 而 且 还 可 以 被 绥 
存 。 使 用 过 滤器 的 搜索 和 使 用 查询 的 普通 搜索 是 非常 相似 的 ， 但 是 需 
要 将 查询 替换 为 "filtered" 上 映射， 包含 原始 的 查询 和 需要 应 用 的 过 
滤 絮 ， 如 代码 清单 4-14 所 示 。 在 查询 的 DSL 中 ， 这 种 查询 被 称 为 过 滤 
查询 。 过 滤 查 询 包 括 两 个 模块 ， 可 询 和 过 滤器 。 


代码 清单 4-14 ”使 用 过 滤器 的 查询 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 
"query": { 
"filtered": { ~--- 查 询 类 型 这 里 指定 了 一 个 附 上 过 滤器 的 查询 
"query": { 
"match": { ” <--- 查 询 搜索 了 标题 中 含有 “hadoop” 字 样 的 活动 
"title": "hadoop" 
} 
ty 


"filter": { =---- 额 外 的 过 滤器 将 查询 结果 限制 为 andy 组 织 的 活动 。 注 意 
andy 中 的 a 是 小 写 。 在 下 一 章 有 关 分 析 的 内 容 中 我 们 会 解释 其 原因 
"term": { 
"host": "andy" 


eA Se i 通 码 询 来 发 现 匹 配 了 “hadoop” 的 活动 ， {A ERR SR 
键 词 “<Hadoop” 的 查询 ， 还 有 一 个 过 滤 絮 用 于 限制 活动 的 搜索 结果 。 在 
roa wines 部 分 ， 一 个 term 过 滤器 i 运用 在 所 有 文 往 上 来 可 找 
Ane andy" 的 文档 。 在 幕后 ，Elasticsearch 建 立 了 一 个 位 集 
Ge pa 进 制 集合 ， 表 示 某 个 文档 是 否 匹配 过 人 
人 器。 图 4-3 展 示 了 位 集 


过 滤器 : {"term": {"tags": "lucene"}} 


A hadoop 


lucene 
文档 A 到 文档 E 的 二 一 一 


B 
“tags” 字段 : Ẹ 


lucene 


AS D python 
E 


java 


( fy 
~ 位 集合 是 二 进 制 的 标志 , ( 。 / 


表明 过 滤器 是 否 匹 配 。 \ \ 
~ 文档 B 和 文档 C 匹 配 成 功 


图 4-3 ”过 滤 结 果 在 位 集合 中 缓存 ， 使 得 后 续 处 理 运行 更 快 


创建 位 集合 之 后 ，Elasticsearch 现 在 可 以 使 用 它 来 进行 过 滤 〈 这 也 
是 其 名 字 的 由 来 ) ， 根 据 搜索 的 查询 部 分 排除 掉 不 应 该 被 搜索 到 的 文 
档 。 过 小 絮 限 制 了 需要 计算 得 分 的 文档 数量 。 根 据 查 询 ， 仪 仪 是 有 限 
的 文档 集合 才 需 要 计算 得 分 。 因 此 ， 加 入 过 滤器 要 比 在 同一 个 搜索 中 
融入 整个 查询 要 快 得 多 。 根 据 使 用 过 小 絮 的 种 类 ，Elasticsearch 可 以 在 
位 集合 中 缓存 结果 。 如 果 过 滤器 用 于 另外 一 个 搜索 请 求 ， 位 集合 就 没 
有 必要 再 次 计算 了 |! 


对 于 其 他 类 型 的 过 滤器 ， 如 果 Elasticsearch 可 以 预见 它们 不 会 再 被 
使 用 ， 或 者 古 位 集合 重新 创建 的 成 本 微乎其微 ， 那 么 这 些 过 滤 右 束 不 
会 目 动 地 被 缓存 。 一 个 很 难 被 缓存 的 查询 样 例 是 限定 在 最 近 一 小 时 的 
文档 。 当 你 执行 这 个 查询 的 时 候 ， 每 秒 结 采 都 在 发 生变 化 ， 因 此 没有 
理由 去 缓存 它 。 此 外 ，Elasticsearch 人 允许 用 户 手 动 指定 一 个 过 滤器 是 否 
应 该 被 缓存 。 PAIR EAB ETSI A i as RRE R o AE, WOR 
可 以 你 应 该 将 部 分 查询 转化 为 过 滤器 。 


在 讨论 搜索 加 速 的 第 10 章 ， 我 们 将 重 温 位 集合 ， 来 解释 它们 运作 
的 细节 ， 以 及 是 如 何 影响 性 能 的 。 现 在 你 理解 了 什么 是 过 滤器 ， 接 下 
来 将 讨论 几 种 不 同类 型 的 过 滤器 和 查询 ， 并 在 数据 上 进行 一 些 搜索 。 


4.2.2 ”常用 的 基础 查询 和 过 滤器 


在 Elasticsearch 中 有 多 种 方法 进行 查询 ， 使 用 哪 种 方法 更 好 取决 于 
数据 是 如 何在 索引 中 存储 的 。 在 本 广 中 ， 你 将 学 习 Elasticsearch 所 支持 
的 不 同类 型 查询 ， 并 针对 每 个 查询 进行 和 尝试。 我 们 会 评估 使 用 每 个 查 
ee 并 提供 性 能 说 明 ， 这 样 你 可 以 决 贫 哪 种 查询 更 符合 自己 


本 章 的 前 几 节 已 经 介绍 了 一 些 查询 和 过 滤器 。 从 返回 所 有 文档 的 
match_all 查询 开始 ， 然 后 是 根据 某 个 字段 中 出 现 的 关键 词 进行 限 
定 的 match 查询 ， 再 就 是 根据 某 个 字段 中 词 条 进行 限定 的 term Wik 
厂 。 虽 然 沿 未 正式 讲述 但 是 已 经 使 用 的 查询 是 query_string。 这 是 
用 在 基于 URL 的 搜索 中 。 稍 后 本 节 会 讨论 更 多 细 广 。 


本 太 将 重新 介绍 这 些 查 询 ， 不 过 会 引入 更 多 高 级 选项 。 我 们 还 会 
看 看 更 为 高 级 的 查询 和 过 滤 絮 ， 如 range 过 滤器 、prefix 查 询 和 
simple_query_string 查询 。 先 从 最 简单 的 查询 match_all F 


始 。 


1. match_all 查 询 


先 让 你 猜 猜 这 个 查询 是 干什么 的 。 对 了 ! 它 会 匹配 所 有 的 文档 。 

这 个 match_all 查询 在 如 下 两 个 场景 非常 有 用 : MA EHLE 

(可 能 完全 不 关心 文档 的 得 分 ) 而 不 是 查询 的 时 候 ; 或 者 是 希望 返回 
被 搜索 的 索引 和 类 型 中 全 部 的 文档 。 碍 询 看 上 去 殉 像 下 面 这 样 : 


% curl 'localhost:9200/_search' -d ' 


"query" : { 


"match_all" : {} 


7S eR eA ee, Mena, Bae LE 
像 下 面 这 样 OLEANDER T) : 


% curl 'localhost:9200/get-together/_search' -d ' 


"query": { 
"filtered": { 
"query": { 
"match_all": {} 
ty 
"filter": { 
. filter details ... 


很 简单 ， 不 是 吗 ? 可 是 对 于 搜索 引擎 而 言 不 是 非常 有 用 ， 因 为 用 
户 很 少 会 搜索 全 部 的 内 容 。 你 甚至 可 以 让 搜索 请 求 更 简单 ， 将 
match_al1 碍 询 作为 默认 设置 。 这 样 ， 如 此 应 用 场景 下 的 查询 元 素 
可 以 被 完全 忽略 。 下 面 来 看 看 更 有 价值 的 查询 。 


2. query_string #14) 


第 2 草 使 用 了 query_string Ais) T f#— GElasticsearchAkS aa 
局 动 并 运行 是 多 么 的 简 单 ， 但 是 这 里 将 再 次 讨论 更 多 的 细 让 ， 这 样 读 
者 残 可 以 理解 它 和 其 他 查询 有 什么 异同 。 

在 代码 清单 4-15 中 ， 一 个 query_string 查 询 既 可 以 通过 URL 来 


执行 ， 也 可 以 通过 请 求 主体 来 发 送 。 这 个 例子 搜索 了 包含 nosql” 的 文 
档 。 查 询 应 该 返回 一 篇 文档 。 


代码 清单 4-15 query_string 搜 索 的 样 例 


% curl -XGET 'localhost:9200/get-together/_search?q=nosql&pretty' 


<- - -通过 URL 参 数 发 送 query_string 搜 索 


% curl -XPOST 'http://localhost :9200/get-together/_search?pretty' 
-d' 


"query" : { <。--- 通 过 请 求 主体 发 送 同 样 的 query_string 搜索 
"query_string" : { 


"query" : "nosql" 


默认 BaF, query_strin 查询 将 会 搜索 _a1ll 字段 。 还 记得 
第 3 章 曾 经 介绍 过 ，_al1 字段 是 由 所 有 字段 组 合 而 成 。 如 果 需 要 修改 
iA, 可 以 通过 查询 来 设置 字段 如 description:nosql ， 或 者 
是 通 Bits 求 来 设置 default_field ， 如 代码 清单 4-16 所 示 。 


代码 清单 4-16 为 query_string 搜 索 指 定 默认 的 字段 default_field 


% curl -XPOST 'localhost:9200/_search' -d ' 


"query" : { 
"query_string" : 
"default_field" : "description", <--- 由 于 查询 中 没有 指定 字段 ， 所 以 
吏 用 了 默认 字段 (description) 
"query" E "nosql" 


正如 你 所 想 ， 这 种 语法 所 提供 的 不 只 是 搜索 单个 关键 词 那么 简 
单 。 询 语法 ， 人 允许 使 用 AND 和 OR AEFI IB AR 
操作 符 来 组 合 词 条 的 搜索 ， 还 可 以 使 用 减 号 (- ) 操作 符 在 结果 集 
中 排除 文档 。 询 搜 索 了 所 有 名 称 中 含有 “nosql”* 的 分 组 ， 
排除 了 那些 描述 中 有 “mongodb” 的 结果 : 


name:nosql AND -description:mongodb 


可 以 使 用 如 下 命令 查询 所 有 于 1999 年 到 2001 年 期 间 创 建 的 搜索 和 


Lucene 分 组 : 


(tags:search OR tags:lucene) AND created on:[1999-01-01 TO 2001- 


01-01] 


Xf query_string 是 Elasticsearch 中 可 用 的 最 强 有 力 的 查询 之 一 ， 但 有 的 时 候 它 也 
是 最 难 阅读 和 扩展 的 查询 之 一 。 允 许 用 户 使 用 该 语法 配置 自己 的 查询 ， 听 上 去 可 能 是 很 诱 
人 的 ， 但 是 请 考虑 解释 复杂 查询 含义 的 难度 ， 例 如 ， 下 面 这 个 : 


name:search*2 AND (tags:lucene OR tags:"big data"~2) AND - 


description:analytics AND created_on: [2006-05-01 TO 2007-03-29] 


query_string 查询 的 一 个 显著 缺点 是 ， 它 实在 是 太 强 大 了 ， 人 允 
许 网 站 的 用 户 拥有 如 此 的 权利 ， 可 能 让 Elasticsearch 集 群 承担 风险 。 如 
果 用 户 输入 了 格式 错误 的 查询 ， 他 们 将 得 到 返回 的 异常 。 通 过 组 合 还 
有 可 能 返回 所 有 的 东西 ， 让 集群 充满 风险 。 请 看 看 前 面 的 注意 事项 。 


针对 query_string 碍 询 ， 建 议 的 替换 方案 包括 term， 
terms，match 或 者 multi_match 查询 ， 这 些 允 许 你 在 文档 的 一 个 
或 多 个 字段 中 搜索 字符 串 。 另 一 个 良好 的 替换 方案 是 
simple_query_string 人 查询 。 这 意味 着 通过 +、-、AND 和 OR 来 更 
容易 地 使 用 查询 语法 。 下 面 儿 区 会 介绍 更 多 有 关 这 些 碍 询 的 内 容 。 


3. term 查 询 和 term 过 滤器 


term 查询 和 过 滤器 是 可 执行 的 查询 中 最 人 简单 的 几 个 ， 它 们 让 你 
可 以 指定 需要 搜索 的 文档 字段 和 词 条 。 请 注意 ， 由 于 被 搜索 的 词 条 是 
没有 经 过 分 析 的 ， 文 档 中 的 词 条 必须 要 精确 匹配 才能 作为 结果 返回 。 
第 5 章 将 讨论 分 词 (token) ， 作 为 Elasticsearch 索 引 的 独立 文本 片段 ， 
是 如 何 被 分 析 的 。 如 果 对 Lucene 很 熟悉 ， 了 解 词 条 (tem) 查询 是 直 
接 对 应 于 Lucene 的 TermQuery 这 一 点 会 很 有 帮助 。 


代码 清单 4-17 展 示 了 一 个 term 查询 ， 它 搜索 了 标签 为 
elasticsearch 的 分 组 。 


代码 清单 4-17 词 条 查询 的 样 例 


% curl 'localhost:9200/get-together/group/_search' -d ' 


"query": { 
"term": { 
"tags": "elasticsearch" 
} 
ty 
"source": ["name", "tags"] 
}' 
{ 
"hits": [ 
{ 
"id" g "3", 
"index": "get-together", 


"score": 1.0769258, 
"type": "group", 
"source": { 
"name": "Elasticsearch San Francisco", 
"tags": [ <--- 由 于 这 两 个 结果 的 标签 包含 了 关键 
词 “elasticsearch”， 所 以 它们 被 返 
"elasticsearch", 
"big data", 
"lucene", 
"Open source" 


El 


"id": "2"; 
"_index": "get-together", 
"score": 0.8948604, 
"_type": "group", 
"_source": { 
"name": "Elasticsearch Denver", 
"tags": [ 
"denver", 
"elasticsearch", 
"big data", 
"lucene", 
"solr" 


[CC 

和 term 查询 相似 ， 还 可 以 使 用 term 过 滤器 来 限制 结果 文档 ， 使 
其 包含 特定 的 词 条 ， 不 过 无 须 计 算得 分 。 比 较 代 码 清单 4-17 和 代码 请 
单 4-18 的 文档 得 分 ， 会 发 现 过 滤 占 没有 进行 计算 ， 因 此 也 没有 影响 得 
分 。 由 于 使 用 了 match_all 查 询 ， 所 有 文档 的 得 分 都 是 1.0。 


代码 清单 4-18 ” 词 条 过 滤器 的 样 例 


% curl 'localhost:9200/get-together/_search' -d ' 


"query": { 
"filtered": { 
"query": { <--- 和 之 前 的 查询 一 致 ， 但 是 这 次 使 用 了 过 滤器 
"match_all": {} 


ty 
"filter": { 
"term": { 
"tags": "elasticsearch" 
} 
} 
} 
ty 
"source": ["name", "tags" ] 
}' 
{ 
"hits": [ 
{ 
" jd" : 9 
"_index": "get-together", 


"_score": 1.0, =--- 现 在 文档 得 分 是 常数 了 ， 原 因 是 使 用 了 过 滤 


器 ， 而 不 是 查询 
"_type": "group", 
"_source": { 
"name": "Elasticsearch San Francisco", 
"tags": [ 
"elasticsearch", 
"big data", 
"lucene", 
"open source" 


ty 


vidt: 2 
"_index": "get-together", 
"_score": 1.0, 
"_type": "group", 
"_source": { 
"name": "Elasticsearch Denver", 
"tags": [ 
"denver", 
"elasticsearch", 
"big data", 
"lucene", 
"solr" 


4. terms #214) 


和 term 查询 类 似 ，terms 查询 (注意 这 里 多 一 个 s) 可 以 搜索 某 


个 文档 字段 中 的 多 个 词 条 。 例 如 ， 代 码 请 单 4-19 搜 索 了 标签 合 
有 “jvm” 或 “hadoop” 的 分 组 。 


代码 清单 4-19 ”使 用 多 词 条 查询 搜索 多 个 词 条 


% curl 'localhost:9200/get-together/group/_search' -d ' 


"query": { 
"terms": { 
"tags" : ["jvm", "hadoop" | as -搜索 的 多 个 词 条 
} 
ty 
"source": ["name", "tags"] 
i 
{ 


" jd" RE Ws Teale 


"index": "get-together", 
"score": 0©.33779633, 
"type": "group", 
"source": { 
"name": "Denver Clojure", 
"tags": [ 
"clojure", 
"denver", 
"functional programming", 
"jvm", =-- -发现 其 中 一 个 匹配 标签 
"java" 


"id": "4", 
"_index": "get-together", 
"score": 0.22838624, 
"_type": "group", 
"source": { 
"name": "Boulder/Denver big data get-together", 
"tags": [ 
"big data", 
"data visualization", 
"open source", 
"cloud computing", 
"hadoop" 


对 于 和 和 查询 相 匹 配 的 文档 ， 可 以 强制 规定 每 篇 文档 中 匹配 词 条 的 
最 小 数量 ， 为 了 实现 这 一 点 请 指定 mijnimum_should_match 参数 : 


% curl 'localhost:9200/get-together/group/_search' -d ' 


"query": { 
"terms": { 
"tags": ["jvm", "hadoop", "lucene"], 
"minimum_should_match": 2 
} 
} 


po 
“等 等 ! 这 样 操 作 太 受 限制 了 ! ?如果 你 正在 仔细 思考 就 会 好 奇 ， 
当 和 需要 将 多 个 查询 合并 为 一 个 查询 时 ， 究 竟 该 怎么 办 。 在 关于 复合 查 


4.2.3 match#ij#ltermw yeas 


和 term 查 询 类 似 ，match 查询 是 一 个 散 列 映射 ， 包含 了 希望 搜 
索 的 字段 和 字符 串 。 字 段 既 可 以 是 单独 一 个 ， 也 可 以 是 特殊 的 搜索 所 
有 字段 的 _all。 这 里 是 match 查询 的 一 个 例子 ， 它 搜索 了 name tE 
有 “elasticsearch” 的 分 组 。 


% curl 'localhost:9200/get-together/group/_search' -d ' 


"query": { 
"match": 
"name": "“elasticsearch" 


match 查询 可 以 有 多 种 行为 方式 。 最 常见 的 是 布尔 (boolean) 
和 词组 (phrase) 。 


1. 布尔 查询 行为 


默认 情况 下 ，match 查询 使 用 布尔 行为 和 OR 操作 符 。 例 如 ， 如 
果 搜 索 文 本 “Elasticsearch Denver”，Elasticsearch 会 搜索 “Elasticsearch 
OR Denver”， 同 时 匹配 “Elasticsearch Amsterdam” 和 “Denver Clojure 


Group” 聚 会 分 组 。 


为 了 搜索 同时 包含 “Elasticsearch” 和 “Denver 关 键 词 的 结果 ， 将 
match 字段 的 name 修改 为 一 个 映射 ， 并 将 operator 字 段 设 置 为 and 


， 达 到 改变 操作 符 的 目的 。 


% curl 'localhost:9200/get-together/_search' -d ' 


"query": { 
"match": { 
"name": { <--- 对 于 name AYE, EAB, MAB 
"query": "Elasticsearch Denver", ~--- 在 query 的 键 里 指定 要 搜 


索 的 字符 串 
"operator": "and" =--- 使 用 and 操作 符 ， 而 不 是 默认 的 or 操作 符 


match 碍 询 的 第 二 个 重要 行为 是 作为 phrase 查 询 。 


2. 词组 查询 行为 


在 文档 中 搜索 指定 的 词组 时 ，phrase 查询 是 非常 有 用 的 ， 每 个 
单词 的 位 置 之 间 可 以 留 有 余地 。 这 种 余地 称 作 slop ， 用 于 表示 词组 
中 多 个 分 词 之 间 的 距离 。 假 设 你 试图 记 起 某 个 聚会 分 组 的 名 字 ， 只 记 
得 “Enterprise” 和 “London” 两 个 词 ， 但 是 不 记得 名 字 其 余 的 部 分 了 。 你 
可 以 搜索 词组 “enterprise london”, slop 设置 为 1 或 者 2 ， 而 不 是 默 
认 的 0 ， 如 此 一 来 ， 没 有 必要 知道 分 组 的 精确 标题 ， 束 可 以 寻找 包含 
该 词组 的 结果 。 


% curl 'localhost:9200/get-together/group/_search' -d' 


"query": { 
"match": { 
"name": { 
"type": "phrase", «---f#Fmatch_phrase 查询 ， 而 不 是 普通 的 match 
查询 
"query": "enterprise london", 
"slop": 1 <---¥slop 设置 为 1， 告 诉 Elasticsearch 人 允许 词 条 之 间 有 
间隔 
} 


"source": ["name", "description" ] 
a a 
{ 
"id": TE 
"_index": "get-together", 
"score": 1.7768369, 
"_type": "group", 
"_source": { "description": "Enterprise search get-togethers 
are an 
“opportunity to get together with other people doing search.", 
"name": "Enterprise search London get-together" =-- -匹配 字 


段 中 的 “enterprise” 和 “london” 被 一 个 单词 分 隔 


} 


4.2.4 phrase_prefix 查 询 


和 match_phrase 查 询 类 似 ，phrase_prefix 查询 可 以 更 进 一 
步 搜 索 词 组 。 不 过 它 是 和 词组 中 最 后 一 个 词 条 进行 前 级 匹配 。 对 于 提 
供 搜索 框 里 的 自动 完成 功能 而 言 ， 这 个 行为 是 非常 有 用 的 ， 这 样 用户 
输入 搜索 词 条 的 时 候 就 能 获得 提示 。 当 使 用 这 种 行为 的 搜索 时 ， 最 好 
通过 max_expansions 来 设置 最 大 的 前 级 扩展 数量 ， 如 此 一 来 就 可 
以 在 合理 的 时 间 内 返回 搜索 结果 。 


在 下 面 的 例子 中 ，phrase_prefix 查询 使 用 的 是 “elasticsearch 
den”。Elasticsearch 使 用 “den” 文 本 进行 前 绥 匹 配 ， 查 找 所 有 name 字 段 
， 发 现 那 些 以 “den” 开 始 的 取 值 (如 “Denver”) 。 由 于 产生 的 结果 可 能 
是 个 很 大 的 集合 ， 需 要 限制 扩展 的 数量 。 


% curl 'localhost:9200/get-together/group/_search' -d ' 


"query": { 
"match": { 
"name": { 
"type": "phrase_prefix", <--- 使 用 phrase_prefix 查询 ， 而 不 是 普 


通 的 phrase 查询 


W 
此 
Np 


"query": "Elasticsearch den", =---- 匹 配 字段 ， 需 要 包 
含 “EJasticsearch” 和 另 一 个 以 “den7 开 头 的 词 条 
"max_expansions": 1 。--- 指 定 最 大 的 前 缀 扩展 数量 


} 
} 
了 
"source": ["name" 
}' 
{ 
"id": "2", 
"index": "get-together", 
"score": 2.7294521, 
"type": "group", 
"source": { 
"name": "Elasticsearch Denver" 
} 


} 


bool 查 询 和 phrase 查 询 对 于 接受 用 户 输 入 来 说 是 很 好 的 选择 。 
它们 允许 你 以 不 容易 出 错 的 方式 传送 用 户 的 输入 ， 而 且 match 查 询 不 
像 query_string 查询 那样 ， 很 难处 理 +、-、? 和 ! 这 样 的 保留 字 


Fe 


FF o 


使 用 multi_ match 来 匹配 多 个 字段 


尽管 很 容易 联想 到 ，mu1lti_match 查 询 和 搜索 单 字段 中 多 个 匹 
配 的 词 条 查询 ， 它 们 的 行为 表现 会 非常 相像 ， 但 是 两 者 的 行为 还 是 有 
细微 的 区 别 。 多 字段 匹配 允许 你 搜索 多 个 字段 中 的 值 。 在 育 会 的 案例 
这 一 点 非常 有 用 ， 可 以 同时 在 分 组 的 名 称 和 描述 中 搜索 某 个 字符 


% curl 'localhost:9200/get-together/_search' -d' 
{ 


"query": { 
"multi_match": { 
"query": "elasticsearch hadoop", 


"fields": [ "name", "description" ] 
} 
} 


PO 

就 像 match 查询 可 以 转化 为 phrase is] ` prefix 查询 或 者 
phrase_prefix 查询 ，multi_match 查询 可 以 转化 为 phrase £ 
询 或 者 phrase_prefix 查询 ， 方 法 是 指定 type 键 。 除 了 可 以 指定 
的 搜索 字段 是 多 个 而 不 是 单独 一 个 之 外 ， 你 可 以 将 multi_match Æ 
询 当 作 match 查询 使 用 。 


通过 所 有 这 些 不 同 的 match 查询 ， 几 乎 可 以 搜索 全 部 的 东西 。 这 
也 十 为 什么 对 于 大 多 数 使 用 案例 而 言 ，match 查询 及 其 相关 的 查询 被 
认为 是 核心 的 查询 类 型 。 我 们 强烈 建议 尽 可 能 地 使 用 它们 。 对 于 剩 下 
的 情况 ， 我 们 会 讨论 Elasticsearch 所 文 持 的 一 些 其 他 类 型 的 查询 。 


43 ”组 合 查询 或 复合 查询 


在 学 习 和 使 用 不 同类 型 的 查询 后 ， 你 可 能 会 发 现 需 要 组 合 碍 询 类 


型 ， 这 里 需要 Elasticsearch 的 boo1 查询 。 


4.3.1 bool 查询 


bool 查询 允许 你 在 单独 的 查询 中 组 合 任意 数量 的 查询 ， 指 定 的 
查询 子 句 表明 哪些 部 分 是 必须 (must) 匹配 、 应 该 (should) 匹配 
或 者 是 不 能 (must_not) 死 配 上 Elasticsearch 索 引 里 的 数据 。 


。 如 果 指 定 bool 查询 的 某 部 分 是 must 匹配 ， 只 有 匹配 上 这 些 查询 
的 结果 才 会 被 返回 。 

。 如果 指 定 了 bool 查询 的 某 部 分 是 should 匹配 ， 只 有 匹配 上 指定 
数量 子 句 的 文档 才 会 被 返回 。 

。 如果 没有 指定 must 匹配 的 子 句 ， 文 档 至 少 要 匹配 一 个 should 子 
句 才 能 返回 。 

。 最 后 ，must_not 子 句 会 使 得 匹配 其 的 文档 被 移出 结果 集合 。 


表 4-1 列 出 了 3 个 子 句 和 它们 对 应 的 二 元 操作 。 


表 4-1 bool 查询 的 子 句 类 型 


配 上 文档 ， 小 写 的 and 


在 must 子 句 中 的 任何 搜索 必须 匹 
是 功能 ， 大 写 的 AND 是 操作 符 


(queryi AND 
query2 AND 


not 子 句 中 的 任何 搜索 不 能 是 文档 的 一 部 分 ， 
名 日 合 ( NOT query1 


=; 


在 must _ H 
多 个 子 句 通过 not IHRER T 


AND NOT query2 AND NOT query3 ) 


吏 用 二 元 操作 |Æ should 子 句 中 搜索 ， 可 以 匹配 也 可 以 不 匹配 一 篇 文 
组 合 多 个 子 | 档 ， 但 是 匹配 数 至 少 要 达到 minimum_should_match 参数 所 
query1 OR | 设置 的 数量 (如 果 没 有 使 用 must 那么 默认 是 1 ， 如 果 使 
query2 OR JT must 默认 是 06) 。 和 二 元 操作 oR 类 型 ( query1 or 
query3 ) query2 OR query3 ) 类 似 


通过 一 个 例子 ， 理 解 nust、should 和 must_not 之 间 的 区 别 会 
更 容易 一 些 。 代 码 清 单 4-20 搜 索 David 所 参加 的 活动 ， 这 个 活动 也 需 


Clint 或 者 Andy 参 加 ， 而 且 不 能 是 2013 年 6 月 30 日 之 前 的 。 
代码 清单 4-20 “使 用 bool 查 询 组 合 多 个 子 查询 


-d' 


% curl 'localhost:9200/get-together/_search' 


{ 
"query": { 
"bool": { 
"must": [ 
"term": { «--- 结果 文档 必须 (must) 匹配 的 查询 
"attendees": "david" 
} 


"should": [ 


{ =---- 文 档 应 该 (should) 匹配 的 首 个 查询 


"term": { 
"attendees": "clint" 
} 
ty 
{ : 
"term": { =---- 文 档 应 该 (should) 匹配 的 第 二 个 查询 
"attendees": "andy" 
} 
} 
1, 
"must_not": [ 
{ =--- 结 果 文 档 不 能 (must_not) 匹配 的 查询 
"range" :{ 
"date": { 
"It": "2013-06-30T00:00" 
} 
} 
} 
1, 


"minimum_should_match": 1 -~--- 最 小 的 shou1d 子 句 匹 
量 文档 才能 作为 结果 返回 


配 数 ， 满 


} 
} : 
{ 
"_shards": { 
"failed": 0, 
"successful": 2, 
"total": 2 
ty 
"max_score": @.56109595, 
"total": 1, 
"hits": { 
"hits": [ 
{ 
" id" : "110", 
"index": "get-together", 
"score": 0©.56109595, 
"type": "event", 


"source": { 


"attendees": [ 
"Andy" : 
"Michael", 
"Ben" ; 
"David" 


], 


ae 


总 


个 数 


"date": "2013-07-31T18:00", 
"description": "Discussion about the Microsoft 
Azure cloud and HDInsight.", 
"host": "Andy", 
"location": { 
"geolocation": "40.018528, -105.275806", 


"name": "Bing Boulder office" 
ty 
"title": "Big Data and the cloud at Microsoft" 
} 
} 
], 
ty 
"timed_out": false, 
"took": 67 


4.3.2 bool 过 滤器 


_ bool EE VAD AL a ee MAAS A VARS FEAR BL, AE CAS 
Wikas, MANE) o ZBI PIA ashe AAO CIS 4-2107 


auc 


代码 清单 4-21 使 用 bool 过 滤器 组 合子 过 滤器 


% curl 'localhost:9200/get-together/_search' -d' 


"query": { 
"filtered": { 
"query": { 
"match_all": {} 
ty 
"filter": { 
"bool": { 
"must": [ 
"term": { 
"attendees": "david" 
} 
} 


], 


"should": [ 


"term": { 
"attendees": "clint" 
} 
ty 
"term": { 
"attendees": "andy" 
} 


} 
], 


"must_not": [ 


"range" :{ 
"date": 
"1t": "2013-06-30T00:00" 


在 代码 清单 4-20 的 boo1 查 询 中 ， 可 以 看 到 查询 版 本 的 


minimum_should_match 设置 ， 对 于 should 子 句 而 言 ， 它 设置 了 
结果 返回 所 需 匹 配 的 最 小 数 量 。 在 代码 清单 4-21 中 ，bool 过 小 器 不 支 
持 这 个 属性 ， 而 是 使 用 了 默认 值 1 。 


改善 bool 查 询 


这 里 提供 的 bool 查询 略 显 做 作 ， 但 是 它 包 含 了 所 有 3 个 boo1 碍 
询 选 项 ， 即 must、should 和 must_not 。 可 以 像 下 面 这 样 ， 以 更 好 
的 形式 重 写 这 个 布尔 查询 。 


% curl 'localhost:9200/get-together/_search' -d 


"query": { 


"bool": { 


"must": [ 
"term": { 
"attendees": "david" 
ty 
"range" :{ 
"date": { 
"gte": "2013-06-30T00:00" <---gte 表示 大 于 或 者 等 于 
} 
} 
ty 
"terms": { 
"attendees": ["clint", "andy"] 
} 
} 
] 
} 
}'... Same results as the previous query ... 


请 注意 ， 这 个 查询 比 之 前 的 查询 更 为 短小 。 通 过 将 range 查 询 从 

t (DF) 转化 为 gte (大 于 或 等 于 ) ， 你 可 以 将 其 从 must_not 部 
分 转移 到 Miust 部 分 ,也 可 以 将 两 个 分 离 的 should 碍 询 合 并 为 一 个 
terms 查询 ， 而 不 是 单独 两 个 term 查询 。 现 在 可 以 将 取 值 为 1 的 
minimum_should_match 和 should TARHI, terms Æt 
移入 must 子 句 a 询 语言 ， 所 以 当 发 送 查 询 
到 Elasticsearch 的 时 候 ， 不 用 担心 ， 尝试 不 同 的 查询 组 成 方式 吧 。 


有 了 bool 查询 和 bool 过 滤 絮 ， 可 以 组 合 任何 数量 的 查询 和 过 小 

° 现在 我 们 可 以 回 到 Elasticsearch 所 支持 的 其 他 类 型 的 查询 。 你 已 经 
= THREW, (BÆWREZElasticsearchh ir REAA, X 
该 怎样 处 理 呢 ?匹配 查询 正 是 你 所 需要 的 。 


minimum_should_match 选项 的 默认 值 有 一 些 隐 藏 的 特 
fJ, minimum_should_match 默认 值 为 0。 如 果 没 有 


性 。 如 果 指 定 了 must 子 
站 定 must 子 句 ， 默 认 值 就 是 1 。 


4.4 超越 match 和 过 滤器 查询 


目前 所 讨论 的 通用 查询 ， 如 query_string 和 match 匹配 查询 ， 
对 于 搜索 框 前 的 用 户 而 言 是 非常 有 用 的 。 因 为 你 可 以 使 用 用 户 所 输入 
的 关键 词 ， 立 即 运行 一 个 查询 。 


为 了 缩减 搜索 的 范围 ， 某 些 用 户 界 面 在 搜索 框 的 卷 边 还 引入 了 其 
他 的 元 素 ， 如 日 历 小 插件 ， 有 了 它 束 可 以 搜索 新 创建 的 分 组 ， 或 者 是 
复 选 框 ， 过 小 已 经 选 址 的 活动 。 


4.4.1 range 查 询 和 过 滤器 

这 个 range 查询 和 过 滤器 的 含义 是 不 言 而 喻 的 ， 它 们 查询 介 于 一 
定 范围 之 内 的 值 ， 适 用 于 数字 、 日 期 其 至 是 字符 串 。 

为 了 使 用 范围 查询 ， 需 要 指定 某 个 字段 的 上 界 和 下 界 值 。 例 如 ， 


为 了 搜索 索引 中 所 有 在 2012 年 6 月 1 日 到 9 月 1 日 之 间 创 建 的 活动 ， 请 使 
用 下 面 的 查询 : 


% curl 'localhost:9200/get-together/_search' -d ' 


"query": { 
"range": { 
"created_on": { 
"gt": "2012-06-01", <---f@Agt (AF) Mlt (小 于 ) 指定 日 期 范围 


"It": "2012-09-01" 


或 者 使 用 下 面 的 过 滤器 : 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 


"query": { 
"filtered": { 
"query": { =--- 使 用 match_al1， 可 以 省 略 查询 部 分 ， 这 是 默认 设置 
"match_all": {} 


ty 
"Filter": { 
"range": { 
"created_on": { 
"gt": "2012-06-01", ~---7Ecreated_on 字段 上 搜索 6 月 1 日 之 后 
创建 的 …. 
"It": "2012-09-01" =----…: 而 且 是 9 月 1 日 前 创建 的 
} 
} 
} 
} 
$“ 


请 参考 表 4-2， 查 看 其 他 参数 gt、gte、1t 和 1lte 的 含义 。 
表 4-2 range 查询 的 参数 


直 的 字段 ， 不 包括 该 值 本 : 


搜索 小 于 某 值 的 字段 ， 包 括 该 值 本 : 


range 查询 同样 文 持 字 符 串 的 范围 ， 所 以 如 采 想 搜索 聚会 中 所 
有 "c" 和 "e" 之 间 的 分 组 ， 可 以 使 用 下 面 的 搜索 : 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 


range": { 
name { 
'gt" C 
"Jen e 
} 
} 


使 用 range 查询 时 ， 请 仔细 考虑 一 下 过 滤器 是 否 为 更 好 的 选择 。 


由 于 在 查询 范围 之 中 的 文档 是 二 元 的 匹配 (“是 的 ， 文 档 在 范围 之 

中 ?或 者 “不 是 ， 文 档 不 在 范围 之 中 ”>) ，range 查询 不 必 是 查询 。 为 
了 获得 更 好 的 性 能 ， 它 应 该 是 过 滤器 。 如 末 不 确定 使 用 查询 还 是 过 滤 
硬 ， 请 使 用 过 滤器 。 在 99% 的 用 例 中 ， 使 用 range 过 小事 古 正 确 的 选 


择 。 
4.4.2 prefix 查询 和 过 滤器 


和 term 查 询 类 似 ，prefix 查询 和 过 滤 絮 允许 你 根据 给 定 的 前 绥 
来 搜索 词 条 ， 这 里 前 绥 在 搜索 之 前 是 没有 经 过 分 析 的 。 例 如 ， 为 了 在 
索引 中 搜索 以 "liber" 开 头 的 全 部 活动 ， 使 用 下 面 的 查询 : 


% curl 'localhost:9200/get-together/event/_search' -d ' 
{ 


"query": { 
"prefix": { 
"title": "liber" 


le 类 似 地 ， 你 可 以 使 用 过 滤器 而 不 是 普通 的 查询 ， 语 法 几乎 相 


% curl 'localhost:9200/get-together/event/_search' -d ' 


"query": { 
"filtered": { 


"query": { 
"match_all": {} 
ty 
"filter": { 
"orefix": { 
"title": "liber" 
} 
} 
} 
} 
i 


但 是 稍 等 ! 如 果 发 送 同 样 的 请 求 ， 不 是 使 用 "liber”， 而 
征 “Liber”， 那 会 发 生 什么 呢 ? 由 于 在 发 送 之 前 ， 搜 索 前 绥 旦 不 会 被 分 
析 的 ， 如 此 操作 将 无 法 找到 索引 中 小 写 的 词 条 。 这 有 征 由 Elasticsearch 分 
析 文 档 和 查询 的 方式 引起 的 ， 第 5 章 将 深入 探讨 这 些 。 鉴 于 此 种 行为 ， 
如 采用 户 输 入 的 部 分 词 条 也 是 索引 的 一 部 分 ， 那 么 prefix 查询 对 于 


该 词 条 的 目 动 完 成 而 言 是 很 好 的 选择 。 例 如 ， 当 现 有 的 类 目 已 知 的 时 
候 ， 可 以 提供 一 个 类 目 输入 框 。 如 果 用 户 正 在 输入 索引 中 的 词 条 ， 可 
以 取出 搜索 框 里 输入 的 文本 ， 将 其 转换 为 小 写 ， 然 后 使 用 prefix & 
询 来 看 看 有 哪些 结果 显示 出 来 。 一 旦 prefix 查询 有 匹配 的 结果 ， 可 
以 将 它们 作为 用 户 输入 时 的 提示。 但 是 如 条 需 要 分 析 词 条 ， 或 者 是 布 
望 结 有 末 中 有 一 定 的 模糊 性 ， 可 能 最 好 还 是 使 用 
match_phrase_prefix 查询 作为 目 动 完成 的 功能 。 我 们 将 在 附 孙 F 
中 讨论 更 多 关于 建议 和 建议 器 的 内 容 。 


4.4.3 wildcard 查 询 


你 可 能 会 将 wildcard 查询 作为 正则 表达 式 的 搜索 方式 ， 但 是 实 
WME, wildcard 查询 更 像 是 shell 通 配 符 globbing 的 工作 方式 。 例 如 ， 
运行 


ls *foo?ar 


会 匹配 “myfoobar”foocar" 和 “thefoodar” 这 样 的 单词 。 


使 用 字符 串 可 以 让 Elasticsearch 使 用 * 通配符 雁 代 任何 数量 的 字符 
(也 可 以 不 舍 ) 或 者 是 使 用 ? 通配符 替代 单个 字符 。 


例如 ，“ba*n” 的 查询 会 匹配 “bacon”barn”ban” 和 “baboon”， 这 是 
因为 * 号 可 以 匹配 任何 字符 序列 ， 而 查询 "ba?n” 只 会 匹配 “barn”， 
为 ? 任何 时 候 都 需要 匹配 一 个 单独 字符 。 代 码 清单 4-22 展 示 了 这 些 
wildcard 查询 在 新 的 wildcard-test 索 引 上 的 使 用 。 


也 可 以 混合 使 用 多 个 * 和 ? 字符 来 匹配 更 为 复杂 的 通 配 模板 。 但 
是 请 记 住 ， 当 字符 串 被 分 析 后 ， 默 认 情况 下 空格 会 被 去 除 ， 如 果 空 格 
没有 被 索引 ， 那 么 ? 是 无 法 匹配 上 空格 的 。 


代码 清单 4-22 通配符 查询 的 样 例 


Kany 


% curl -XPOST 'localhost:9200/wildcard-test/doc/1' -d ' 
{"title":"The Best Bacon Ever"}' 
% curl -XPOST 'localhost:9200/wildcard-test/doc/2' -d' 
{"title":"How to raise a barn"}' 


% curl 'localhost:9200/wildcard-test/_search' -d' 


"query": { 
"wildcard": { 
"title": { 
"wildcard": "ba*n" <---“ba*n”SUJUfibacon 和 barn 
} 
} 
} 
}' 
{ 
"hits" : [ { 
"index" : "wildcard-test", 
"type" : "doc", 
"id" : a 
"score" : 1.0, "_source" : {"title":"The Best Bacon Ever"} 
}, 
"_index" : "wildcard-test", 
"type" g "doc", 
"yid" g re 


"_ score" : 1.0, "_source" : {"title":"How to raise a barn"} 


} ] 


} 
% curl 'localhost:9200/wildcard-test/_search' -d ' 
"query": { 
"wildcard": { 
"title": { 
"wildcard": "ba?n" <---“ba?n” 只 会 匹配 barn， 不 会 匹配 bacon 
} 
} 
}' 
{ 
"hits" : [ { 
"index" : "wildcard-test", 
"type" : "doc", 
"id" : m2" 
" score" : 1.0, "_source" : {"title":"How to raise a barn"} 
} ] 
} 


使 用 这 种 查询 时 ， 需 要 注意 的 是 wildcard 查询 不 像 match 等 其 


他 查询 那样 轻 量 级 。 碍 询 词 条 中 越 早 出 现 通配符 (+ 或 者 ? ) ， 

Lucene 和 Elasticsearch 就 需要 做 更 多 的 工作 来 进行 匹配 。 例 如 ， 对 于 碍 
询 词 条 “hx”，Elasticsearch 必 须 匹 配 所 有 以 中 ”开头 的 词 条 。 如 有 果 词 条 
是 “hix”，Elasticsearch 只 需 搜索 所 有 “hi" 开 头 的 词 条 ， 这 是 中 "开头 的 词 
条 集合 的 子 集 ， 规 模 更 小 。 考 虑 到 额外 开 文 和 性 能 问题 ， 在 实际 生产 
环境 中 使 用 wildcard 查询 之 前 ， 请 先 在 你 的 数据 副本 上 仔细 测试 这 
KEW! 在 关于 搜索 相关 性 的 第 6 草 ， 我 们 将 讨论 另 一 种 类 似 的 查询 ， 


即 regexp 查询 。 
45 “使 用 过 滤器 查询 字段 的 存在 性 


当 碍 询 Elasticsearch 的 时 候 ， 我 们 有 时 需要 搜索 缺乏 某 个 字段 或 缺 
失 某 个 字段 值 的 全 部 文档 。 例 如 ， 在 get-together 索 引 中 ， 可 能 想 要 搜 
索 没 有 评价 的 所 有 分 组 。 另 一 方面 ， 你 也 许 想 搜索 拥有 某 个 字段 的 全 


部 文档 ， 无 论 字 段 的 内 容 是 什么 。 这 是 exists 和 missing 过 滤 右 的 
由 来 ， 它 们 都 是 过 滤 夯 而 不 是 普通 的 查询 。 


4.5.1 exists eee 


正如 其 名 ，exists Wika TITIES, Reta 
字段 有 值 的 文档 ， 无 论 其 值 症 多 少 。exists 过 滤器 看 上 去 十 这 样 
的 : 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 


"query": { 
"filtered": { 
"query": { 
"match_all": {} 
} 


£ 
"filter": 
"exists": { "field": "location.geolocation" } 


. only documents with the location.geolocation field are 
returned ... 


也 可 以 使 用 missing 过 滤器 。 
4.5.2 missing ğa 


missing Wiarih in ARR FREZA, RERI E 
的 默认 值 的 文档 〈 也 叫 作 null 值 ， 即 映射 里 的 nul1_value ) ° AT 
搜索 缺失 reviews 字段 的 文档 ， 可 以 使 用 下 面 这 样 的 过 滤器 : 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 


"query": { 
"filtered": { 


"query" : { 
"match_all": {} 
ty 
"filter": { 
"missing": { 
"Field": "reviews", ~---- 发 现 完全 缺失 reviews 字 段 的 文档 
"existence": true, 
"null_value": true 


WREE, Lester =F AGA null_value 字段 的 
文档 匹配 上 ， 可 以 为 existence 和 null _value 字 上 段 指定 布尔 值 。 
ee eee 的 文档 ， 如 代码 清单 4- 
23 所 示 。 


代码 清单 4-23 ”为 existence 和 null_value 字 上 段 设 置 布尔 值 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 
"query": { 
"filtered": { 
"query": { 
"match_all": {} 
ty 
"filter": { 
"missing": { 


"field": "reviews", ~---- 再 次 查找 缺失 reviews 字 段 的 文档 
"existence": false, ~---- 匹 配 reviews 字段 存在 的 文档 
"null value": true <<--- 匹 配 reviews 字段 的 值 为 nuL1_value 的 文 


默认 情况 下 ，missing 和 exists 过 滤器 都 被 缓存 。 


45.3 ”将 任何 查询 转变 为 过 滤器 


Agi Auk, ez 人 4 探讨 了 Elasticsearch 所 支持 的 不 e 询 
和 过 滤 絮 ， 但 是 只 使 用 了 已 经 提供 的 过 滤 絮 。 有 的 时 候 ， 你 想 
query_string 这 这 样 没 有 对 应 过 滤器 的 查询 转化 为 过 滤器 。 TARR 
很 小 众 ， 但 是 a a dd 就 可 以 这 样 使 
用 。Elasticsearch 人 允许 你 通过 query 过 滤器 实现 这 个 目标 ， 它 将 任何 碍 
询 转化 为 过 滤 妖 。 


有 个 query_ string 查询 搜索 匹配 “denver clojure” 的 名 字 ， 为 了 
将 其 转变 为 过 滤器 ， 可 以 使 用 如 下 搜索 请 求 : 


% curl 'localhost:9200/get-together/_search' -d ' 
{ 


"query": { 
"filtered": { 
"query": { 
"match_all": {} 
ty 
"Filter": { 
"query" : { 
"query_string" : { 
"query" : "name:\"denver clojure\"" 。--- 使 用 查询 过 滤器 封装 


没有 对 应 过 滤器 的 查询 
} 


(RADAR, ADE 例如， 没有 必要 为 这 部 

分 查询 计算 得 分 | 。 如 采 过 滤器 多 次 被 使 用 ， 还 可 以 选择 对 其 进行 组 

存 。 加 入 缓存 的 语法 看 上 去 和 加 入 _cache 键 稍 有 不 同 ， 如 代码 清单 
4-24 所 示 。 


代码 清单 4-24 ”缓存 guery 过 滤器 


% curl 'localhost:9200/get-together/_search' -d ' 


"query": { 
"filtered": { 
"query": { 
"match_all": {} 


}, 
"filter": { 
"fquery": { <--- 查 询 音 前 在 fquery 映 射 内 部 
"query" : { 
"query_string" : { 
"query" : "name:\"denver clojure\"" 


_cache": true ~---- 告 诉 Elasticsearch 绥 存 这 个 过 滤器 


查询 的 query 部 分 被 移入 新 的 名 为 fquery 的 键 ，_cache 键 也 
在 其 中 。 如 果 你 发 现 自 己 经 常 使 用 没有 对 应 过 滤器 的 特定 查询 (就 像 
match 查询 和 query_string Æ) ， 那 么 可 能 需要 缓存 它 ， 这 里 
假设 查询 部 分 的 得 分 并 不 重要 。 


46 为 任务 选择 最 好 的 查询 


现在 我 们 已 经 讨论 了 一 些 最 为 主流 的 Elasticsearch 查 询 ， 下 面 来 看 
看 如 何 确定 使 用 哪些 查询 ， 以 及 何 时 使 用 。 没 有 绝对 和 快速 的 规则 告 
诉 你 对 于 何 种 任务 使 用 何 种 查询 ， 表 4-3 会 帮助 你 抉择 常用 案例 中 使 用 


哪些 查询 。 


表 4-3 ”常用 案例 中 使 用 哪些 类 型 的 查询 


用 例 使 用 的 查询 类 型 


使 用 的 查询 类 型 


s Sa ao | 如 果 想 支持 +/- 或 者 在 特定 字段 中 搜 
尔 想 人 p le H J See E se 
RO RENEE ASCE [Rs DRA maton 查询 


simple_query_string 查询 


你 想 将 输入 作为 词组 并 搜索 包含 这 个 词组 | 要 查找 和 用 户 搜索 相似 的 词组 ， 使 用 
词组 中 的 单词 间 也 许 包含 一 些 间 ae _ phrase 查询 ， 并 设置 一 定量 
H ( slop ) slop 


你 想 在 not _ analyzed 字段 中 搜索 单个 的 tet HEA 
关键 词 ， 并 完全 清楚 这 个 词 应 该 是 如 何 出 “| 人 EA 
现 的 


你 希望 组 合 许多 不 同 的 搜索 请 求 或 者 不 同 | 使 用 a 
KERR, BES E82 ROR 


查询 ， 将 任意 数量 的 子 查询 


ool 
a 合 到 一 个 单 儿 的 查询 


Z po als 3 =p H FA multi _ match 查询 ， 它 
ee ee 奔 询 的 表现 闫 似 ， 不 过 是 在 多 


| JX AN 


Ma L T match_all 查询 ， 在 一 次 搜索 中 返 
加 所 有 的 文档 | EA maten 


你 希望 在 字段 中 搜索 一 定 取 值 范围 内 的 什 a 


你 希望 在 字段 中 搜索 以 特定 字符 串 开 头 的 “| 使 用 prefix 查询 ， 搜 索 以 给 
取 值 头 的 词 条 


户 已 经 输入 的 内 容 ， 提 供 单 EH prefix 查询 ， 发 送 用 
H 一 | Heeh A , 内容 然 S SLAS 
自动 完成 功能 EF J 后 获取 以 此 文本 开头 的 匹 


用 例 使 用 的 查询 类 型 


使 用 missing 过 滤器 过 滤 出 缺失 某 些 
字段 的 文档 


你 希望 搜索 特定 字段 没有 取 值 的 所 有 文档 


4.7 ”小结 


由 于 得 分 计算 的 省 略 以 及 缓存 机 制 ， 过 滤 占 可 以 加 速 查 询 。 在 本 
章 中 你 学 习 了 如 下 内 容 。 


。 人 类 语言 类 型 的 查询 ， 如 match 和 query_string 查询 ， 对 于 
搜索 框 而 言 是 非常 合适 的 。 

。match 查询 对 于 全 文 搜索 而 言 是 核心 类 型 ， 但 是 query_string 
ees 也 更 为 复杂 ， 因 为 它 暴 露 了 全 部 的 Lucene 查 询 语 
法 。 

。match 查询 有 多 个 子 类 型 : boolean 、phrase 和 
phrase_prefix。 主 要 的 区 别 在 于 boolean 匹配 单独 的 天 键 
词 ， 而 phrase 考虑 了 多 个 单词 在 词组 里 的 顺序 。 

。 像 prefix 和 wildcard 这 样 的 特殊 查询 ，Elasticsearch 也 是 支持 
的 。 

。 要 过 滤 某 个 字段 不 存在 的 文档 ， 请 使 用 missing Wika ° 

exists 过 滤器 恰恰 相反 ， 它 只 返回 拥有 指定 字段 值 的 文档 。 


用 于 优化 相关 性 的 其 他 查询 类 型 也 是 可 以 选择 的 ， 我 们 将 在 第 6 草 
中 讨论 。 结 果 的 匹配 和 相关 性 很 大 程度 上 受到 文本 分 析 方 式 的 影响 。 
第 5 革 会 涵盖 分 析 步 又 的 细 广 。 


om ”分 析 数 据 


本 章 主要 内 容 


。 使 用 Elasticsearch 分 析 你 的 文档 
。 使 用 分 析 API 

。 Spi 

字符 过 滤器 

5) Val We as 

提取 词 干 

Elasticsearch 所 包含 的 分 析 器 


目前 为 止 ， 我 们 已 经 探索 了 如 何 索 引 和 搜索 你 的 数据 ， 但 是 当 传 
送 数据 到 Elasticsearch 的 时 候 ， 究 竟 发 生 了 什么 ? 对 于 发 送 到 
Elasticsearch 的 文档 而 言 ， 其 中 的 文本 又 发 生 了 什么 ? Elasticsearch 是 
如 何 发 现 句 子 中 的 特定 单词 的 ， 即 使 大 小 写 发 生 了 变化 ? 例如 ， 当 用 
户 搜索 “osql 的 时 候 ， 通 常情 况 下 你 是 希望 匹配 一 篇 包含 share your 
experience with NoSql & big data technologies” FAYE, DEA ALL 
句 包含 了 关键 词 NoSql。 可 以 使 用 前 一 章 学 到 的 内 容 ， 运 行 
query_string 搜索 来 查找 “nosql” 并 发 现 相 天 文档 。 在 本 章 中 ， 你 将 
学 会 为 什么 query_string 查询 会 返回 这 篇 文档 。 一 旦 读 完 了 本 章 ， 
你 将 深入 理解 Elasticsearch 的 分 析 步 又 是 如 何以 更 灵活 的 方式 搜索 文档 


集合 的 。 


5.1 什么 是 分 析 


分 析 (analysis) 是 在 文档 被 发 送 并 加 入 倒 排 索引 之 前 ， 
Elasticsearch 在 其 主体 上 进行 的 操作 。 在 文档 被 加 入 索引 之 前 ， 
Elasticsearch 让 每 个 被 分 析 字 段 经 过 一 系列 的 处 理 步 又 。 


。 字 符 过 滤 一 一 使 用 字符 过 滤器 转变 字符 。 
。 文 本 切 分 为 分 词 一 一 将 文本 切 分 为 单个 或 多 个 分 词 。 
。 分 词 过 滤 一 一 使 用 分 词 过 滤器 转变 每 个 分 词 。 


。 分 词 索 引 一 一 将 这 些 分 词 存 储 到 索引 中 。 


接 下 来 将 针对 每 步 讨 论 更 多 的 细节 ， 但 是 先 看 看 框架 图 中 总 结 的 
整个 流程 。 图 5-1 展 示 了 文本 “share your experience with NoSql & big 
data technologies” 被 转变 为 分 析 后 的 分 词 : share、your、 
experience ~、with、nosql、big、data、tools 和 和 
technologies ° 这 里 所 展示 的 分 析 需 是 定制 的 ， 使 用 了 字符 过 着 
赦 、 分 词 锅 和 分 词 过 滤 硕 。 本 章 稍 后 会 更 深入 地 讨论 定制 分 析 器 。 
原始 文本 


"share yo 


your 
experience with NoSql & 
big data technologies" 


your experience with NoSql and big data technologies | 


experience 


with NoSql and big [aata | 


technologies 


图 5-1 ”使 用 标准 模块 的 定 各 


5.1.1 FRIE 


如 图 5-1 左 上 和 角 所 示 ，Elasticsearch 首 先 运 行 字符 过 滤器 。 这 些 过 
滤器 将 特定 的 字符 序列 转变 为 其 他 的 字符 序列 。 这 个 可 以 用 于 将 
HTML 从 文本 中 和 剥离， 或 者 是 将 任意 数量 的 字符 转化 为 其 他 字符 (也 
许 是 将 “Iloveu 2” 这 种 缩写 的 短 消息 纠正 为 “1 love you too”) 。 在 图 5-1 
中 ， 我 们 使 用 特定 的 过 滤器 将 “&”* 蔡 换 为 “and”。 


5.1.2 Wana 


在 应 用 了 字符 过 滤 侣 之 后 ， 文 本 需要 被 分 割 为 可 以 操作 的 片段 。 
Lucene 目 己 不 会 对 大 块 的 字符 串 数据 进行 操作 。 相 反 ， 它 处 理 的 是 被 
PAA (token) 的 数据 。 分 词 是 从 文本 请 段 生 成 的 ， 可 能 会 产生 任 
意 数量 (甚至 是 0) 的 分 词 。 例 如 ， 在 英文 中 一 个 通用 的 分 词 是 标准 分 
词 器 ， 它 根据 空格 、 换 行 和 破 折 号 等 其 他 字符 ， 将 文本 分 割 为 分 词 。 
在 图 5-1 中 ， 这 种 行为 表现 为 将 字符 串 “share your experience with NoSql 
and big data technologies” 分 解 为 分 词 share、your、experience、 
with、NoSdql、and、big、data 和 technologies 。 


5.1.3 ”分词 过 滤器 


一 旦 文本 块 被 转换 为 分 词 ，Elasticsearch 将 会 对 每 个 分 词 运用 分 词 
过 滤器 ”(token filter) 。 这 些 分 词 过 滤器 可 以 将 一 个 分 词 作 为 输入 ， 
然后 根据 需要 进行 修改 ， 添 加 或 者 是 删除 。 最 为 有 用 的 和 常用 的 分 词 
过 滤器 是 小 写 分 词 过 滤器 ， 它 将 输入 的 分 词 变 为 小 写 ， 确 保 在 搜索 词 
条 “osql” 的 时 候 ， 可 以 发 现 关 于 “NoSqp 的 聚会 。 分 词 可 以 经 过 多 于 1 
个 的 分 词 过 滤器 ， 每 个 过 滤器 对 分 词 进行 不 同 的 操作 ， 将 数据 塑造 为 
最 佳 的 形式 ， 便 于 之 后 的 索引 。 


在 图 5-1 给 出 的 例子 中 ， 有 3 种 分 词 过 滤 句 : 第 一 个 将 分 词 转 为 小 
写 ， 第 二 个 删除 停 用 词 <and”(〈 本 章 稍 后 会 讨论 停 用 词 ) ， 第 三 个 将 词 
条 “tools” 作 为 “technologies” 的 同义词 进行 添加 。 


5.1.4 分词 索 引 

当 分 词 经 历 了 零 个 或 者 多 个 分 词 过 滤器 ， 它 们 将 被 发 送 到 Lucene 
进行 文档 的 索引 。 这 些 分 词组 成 了 第 1 章 所 讨论 的 倒 排 索引 。 

所 有 这 些 不 同 的 部 分 ， 组 成 了 一 个 分 析 恬 (analyzer) ， 它 可 以 


定义 为 零 个 或 多 个 字符 过 滤 船 、 一 个 分 词 磊 、 零 个 或 多 个 分 词 过 滤 


an ° AREA aR REE MN ata ° (RA EE ECA 
构建 自己 的 分 析 器 。 不 过 先 来 谈 谈 一 个 分 析 器 中 的 单独 模块 。 


(E; ie T HA i 


搜索 在 索引 中 执行 之 前 ， 根 据 所 使 用 的 查询 类 型 ， 分 析 同 样 可 以 运用 到 搜索 的 文本 。 
需要 特别 注意 的 是 ，match 和 match_phrase 这 样 的 查询 ， 在 搜索 之 前 会 执行 分 析 步 又 ， 
而 term 和 terms 这 样 的 查询 不 会 。 当 调试 为 什么 特定 的 搜索 能 够 匹配 或 无 法 匹配 某 篇 文 
档 时 ， 牢 记 这 一 点 非常 重要 一 原因 可 能 是 分 析 的 方式 和 你 的 预期 有 所 不 同 。 甚 至 还 有 一 
个 配置 的 选项 ， 为 被 搜索 的 文本 和 被 索引 文本 设置 不 同 的 分 析 器 。 我 们 讨论 N 元 语法 

_Angram) 分 析 器 的 时 候 会 阐述 更 多 细节 。 请 查看 4.2.1 节 ， 了 解 匹 配 和 词 条 查询 的 更 多 
TY o 


Ge 


现在 你 已 经 理解 了 在 Elasticsearch 分 析 的 过 程 中 会 发 生 什 么 事情 。 
接 下 来 讨论 在 你 的 映 册 中， 如 何 设置 分 析 磊 ， 以 及 如 何 定制 分 析 絮 。 


5.2 ”为 文档 使 用 分 析 器 


了 解 不 同类 型 的 分 析 般 和 分 词 过 滤 郁 是 必需 的 ， 不 过 在 实际 使 用 
它们 之 前 ，Elasticsearch 还 需要 知道 你 想 如 何 使 用 它们 。 例 如 ， 可 以 在 
映射 中 指定 分 析 伙 使 用 哪个 单独 的 分 词 囊 和 分 词 过 滤 郁 ， 还 有 哪些 字 
段 使 用 哪些 分 析 器 。 


有 以 下 两 种 方式 来 指定 字段 所 使 用 的 分 析 句 。 


。 当 创建 索引 的 时 候 ， 为 特定 的 索引 进行 设置 。 
。 在 Elasticsearch 的 配置 文件 中 ， 设 置 全 局 的 分 析 髓 。 


通 旬 来 说 ， 出 于 灵活 性 的 考虑 ， 在 创建 索引 或 者 是 配置 映射 的 时 
候 ， 指 定 分 析 器 是 更 简单 的 。 这 允许 你 使 用 更 新 后 的 或 者 是 全 新 的 分 
析 器 来 创建 新 的 索引 。 在 男 一 方面 ， 如 有 果 发 现 目 己 在 多 个 守 引 上 使 用 
了 同一 套 分 析 器 ， 很 少 去 修改 它们 ， 那 么 可 以 将 这 些 分 析 右 放 入 配置 
文件 来 节省 带宽 。 检 查 你 是 如 何 使 用 Elasticsearch 的 ， 挑 选 最 适合 的 选 
项 。 甚 至 还 可 以 结合 这 两 者 ， 将 所 有 索引 都 要 使 用 的 分 析 右 放 入 配置 
文件 ， 并 在 创建 索引 时 为 附加 的 功能 设置 额外 的 分 析 璐 。 


无 论 以 何 种 方式 设置 定制 的 分 析 器 ， 需 要 在 索引 的 映射 中 指定 哪 
些 字 段 使 用 哪些 分 析 妖 ， 可 以 是 在 索引 创建 时 设置 映 冉 ， 或 者 稍 后 使 
用 “put mapping API” 进 行 设置 。 


5.2.1 在 索引 创建 时 增加 分 析 器 


在 第 3 章 中 ， 你 看 到 了 在 索引 创建 时 的 一 些 设置 ， 尤 其 古 索 引 主 分 
片 和 副本 分 片 的 数量 ， 看 上 去 号 像 代码 清单 5-1。 


代码 清单 5-1 设置 主 分 片 和 副本 分 片 的 数量 


% curl -XPOST 'localhost:9200/myindex' -d ' 


"settings" : { 


"number_of_shards": 2, ~--- 为 索引 指定 定制 化 的 设置 ， 这 里 指定 了 2 HE 


分 片 


"number_of_replicas": 1 -~--- 指 定 1 份 副 本 分 片 


"mappings" : { 


=- - -索引 的 映射 
} 
y! 


通过 在 设置 配置 的 jndex 键 里 指定 男 一 个 映射 ， 可 以 增加 一 个 定 
制 分 析 侨 。 该 键 应 该 指定 你 所 期 望 的 定制 分 析 器 ， 它 还 可 以 包含 索 引 
使 用 的 定制 分 词 器 、 分 词 过 滤 胡 和 字符 过 滤器 。 代 码 清 单 5-2 展 示 了 害 
制 分 析 右 ， 为 所 有 的 分 析 步 又 指定 了 定制 的 部 分 。 这 是 一 个 复 洒 的 例 
子 ， 所 以 我 们 为 不 同 的 部 分 加 入 了 一 些 标 题 。 这 里 还 不 用 担心 所 有 的 
代码 细节 ， 因 为 本 章 稍 后 会 逐步 分 析 。 


代码 清单 5-2 ”在 索引 创建 过 程 中 ， 添 加 定制 分 析 器 


% curl -XPOST 'localhost:9200/myindex' -d ' 
{ 


"settings" : { 
"number_of_shards": 2, =--- 索 引 的 其 他 设置 ， 我 们 之 前 介绍 过 
"number_of_replicas": 1, 


"index": { =--- 其 他 索引 级 别 的 设置 


"analysis": { <--- 索 引 的 分 析 设 置 


定制 化 分 析 器 


"analyzer": { <--- 在 分 析 器 对 象 中 设置 定制 分 析 器 
"myCustomAnalyzer": { =--- 定 制 名 为 nyCustomAnalyzer 的 分 析 器 

"type": "custom", 。--- 定 制 化 的 类 型 

"tokenizer": "myCustomTokenizer", <。--- 使 用 
myCustomTokenizer 对 文本 进行 分 词 

"filter": ["myCustomFilter1", "myCustomFilter2"], 
指定 文本 需要 经 过 的 两 个 过 滤器 : myCustomFilter1 和 myCustomFilter2 

"char_filter": ["myCustomCharFilter"] <---iX#e 
滤器 myCustom CharFilter， 这 会 在 其 他 分 析 步 又 之 前 运行 


"tokenizer": { 
"myCustomTokenizer": { =---- 设 置 定制 分 词 器 的 类 型 为 letter 
"type": "letter" 


"filter": { 

"myCustomFilteri": { =--- 两 个 定制 的 分 词 过 滤器 ， 一 个 是 转 为 小 写 ， 一 

jkstem 进行 词 干 处 理 
"type": "lowercase" 

ty 

"myCustomFilter2": { 
"type": "kstem" 


"char_filter": { 
"myCustomCharFilter": { =---- 定 制 的 字符 过 滤器 ， 将 字符 翻译 为 其 


"type" : "mapping", 
"mappings" : ["ph=>f", "u=>you" | 


"mappings" : { =--- 创 建 索引 的 映射 


} 
} 1 


这 个 代码 清单 中 上 略 去 了 映射 的 部 分 ， 因 为 5.2.3 节 将 介绍 如 何 为 每 
个 字段 设置 分 析 器 。 这 个 例子 创建 了 定制 的 分 析 妖 ， 名 为 
myCustomAnalyzer， 它 使 用 了 定制 的 分 词 器 
myCustomTokenizer ， 两 个 定制 的 过 滤 絮 myCustomFilter1i 和 
myCustomFilter2 ， 以 及 一 个 定制 的 字符 过 滤器 
myCustomCharFilter 。 (发 现 这 里 的 趋势 了 吗 ? ) 每 个 单独 的 分 
析 部 分 都 是 通过 JSON 子 映射 来 表达 的 。 可 以 指定 多 个 不 同名 称 的 分 析 
器 ， 将 它们 组 合 到 定制 的 分 析 器 中 ， 让 你 在 索引 和 搜索 的 时 候 拥 有 足 
够 灵活 的 分 析 选 项 。 


现在 ， 你 大 人 致 了 解 了 创建 索引 时 ， 添 加 定制 分 析 器 是 什么 样子 。 
接 下 来 看 看 同样 的 分 析 器 如 何 添加 到 Elasticsearch 配 置 文件 中 。 


5.2.2 ”在 Elasticsearch 的 配置 中 添加 分 析 器 


除了 在 索引 创建 时 设置 分 析 屡 ， 另 一 种 设置 定制 分 析 喜 的 方法 是 
回 Elasticsearch 的 配置 文件 中 添加 分 析 器 。 但 是 使 用 这 种 方法 的 时 候 需 


要 折 中 考虑 。 如 果 在 索引 创建 的 时 候 设 置 分 析 器 ， 那 么 无 须 重 局 
Elasticsearch 就 能 修改 分 析 絮 。 可 是 ， 如 果 在 Elasticsearch 的 配置 中 指 
定 分 析 器 ， 那 么 需要 重启 Elasticsearch 才 能 让 分 析 器 的 修改 生效 。 从 男 
一 方面 来 看 ， 如 果 在 配置 中 指定 ， 创 建 索 引 时 所 需要 发 送 的 数据 会 更 
少 。 尽 管 在 索引 创建 时 进行 设置 ， 通 常会 获得 更 大 的 灵活 性 ， 但 是 如 
果 你 从 未 打算 修改 分 析 器 ， 那 么 可 以 直接 将 它们 放 入 配置 文件 中 。 


在 elasticsearch.yml 中 设置 分 析 器 和 在 JSON 中 设置 它们 类 似 。 这 里 
的 定制 分 析 器 和 前 一 节 一 样 ， 不 过 是 在 YAML 配 置 文件 里 设置 的 。 


index: 
analysis: 
analyzer: 
myCustomAnalyzer: 
type: custom 
tokenizer: myCustomTokenizer 
filter: [myCustomFilter1, myCustomFilter2] 
char_filter: myCustomCharFilter 
tokenizer: 
myCustomTokenizer : 
type: letter 
filter: 
myCustomFiltert1: 
type: lowercase 
myCustomFilter2: 
type: kstem 
char_filter: 
myCustomCharFilter: 
type: mapping 
mappings: ["ph=>f", "u =>you"] 


5.2.3 ”在 映射 中 指定 某 个 字段 的 分 析 唤 


在 使 用 定制 分 析 器 来 分 析 字 段 之 前 ， 还 有 一 个 谜 题 需 要 解决 : 如 
何 指定 映射 中 的 某 个 特定 字段 使 用 某 个 定制 分 析 器 来 进行 分 析 。 人 简单 
的 方式 是 通过 设置 映射 中 的 analyzer 字 段 来 为 某 个 字段 指定 分 析 
器 。 例 如 ， 如 果 有 一 个 称 为 description 的 字段 ， 在 其 映射 中 指定 
分 析 器 应 该 是 这 样 的 : 


"mappings" : { 
"document" : { 
"properties" : { 
"description" : { 
"type" : "string", 
"analyzer" : "myCustomAnalyzer" <«<---Adescription 字段 # 


b 


myCustomAnalyzer 的 分 析 器 


如 果 想 让 某 个 字段 完全 不 被 分 析 处 理 ， 需 要 指定 Index 字段 为 
not_analyzed。 这 将 使 得 文本 作为 单个 分 词 来 处 理 ， 不 会 受到 任何 
(不 会 转 为 小 写 或 者 进行 其 他 任何 改变 ) 。 看 上 去 就 像 下 面 这 


"mappings" : { 
"document" : { 
"properties" : { 
"name" : 
"type" : "string", 


"index" : "not_analyzed" ---- 指 定 不 要 分 析 name 字段 


如 果 想 同时 搜索 分 析 后 的 字段 和 完全 匹配 的 字段 ， 一 个 通用 的 模 
式 是 将 它们 放 入 多 字段 。 


使 用 多 字段 类 型 来 存储 分 析 方 式 不 同 的 文本 


通常 情况 下 ， 可 以 同时 搜索 子 段 分 析 后 的 文本 和 原始 、 未 经 分 析 
的 文本 ， 是 非 第 有 用 的 。 这 对 于 字符 串 字 段 上 的 案 集 或 者 十 排序 而 言 
尤其 有 用 。 通 过 第 3 半 介 绍 的 多 字段 ，Elasticsearch 使 得 这 一 点 很 容易 
实现 。 以 get-together 索 引 中 的 分 组 name 字段 为 例 ， 你 可 能 希望 能 够 在 
name 字段 上 进行 排序 ， 但 同时 又 能 对 分 析 后 的 结 采 进行 搜索 。 可 以 
像 下 面 这 样 设置 字段 来 实现 两 者 : 


% curl -XPOST 'localhost:9200/get-together' -d ' 


"mappings": { 
"group": { 
"properties": { 
"name": { 
"type": "string", 
"analyzer": "standard", =---- 初 始 的 分 析 ， 使 用 标 
析 器 ， 该 分 析 器 是 默认 值 ， 可 以 省 略 此 处 配置 
"Fields": { 
"raw": { 


"index": "not_analyzed", =---- 字 段 的 原始 版 


"type": "string" 


我 们 已 经 讨论 了 如 何 指定 分 析 器 ， 现 在 将 向 你 展示 一 个 灵巧 的 方 
法 来 检测 任意 的 文本 如 何 分 析 : 分 析 API。 


5.3 “使 用 分 析 API 来 分 析 文 本 


当 跟 踪 信 息 是 如 何在 Elasticsearch 索 引 中 存储 的 时 候 ， 使 用 分 析 
API 来 测试 分 析 的 过 程 是 十 分 有 用 的 。 这 个 API 人 允许 你 各 Elasticsearch 发 
送 任何 文本 ， 指 定 所 使 用 的 分 析 恬 、 分 词 怖 或 者 分 词 过 滤 右 ， 然 后 获 
取 分 析 后 的 分 词 。 代 码 清 单 5-3 展 示 了 一 个 分 析 API 的 例子 ， 它 使 用 标 


(Ea Naa NT T XÆ “share your experience with NoSql & big data 
technologies” ° 


代码 清单 5-3 使 用 分 析 API 的 例子 


% curl -XPOST 'localhost:9200/_analyze?analyzer=standard' -d 
‘share your 
experience with NoSql & big data technologies' 
"tokens" : [ { 
"token" : "share", 
"start_offset" : 0, 
"end_offset" : 5, 


"type" : "<ALPHANUM>", =- - -分 析 后 的 分 词 : share ` your ` 
experience ~、with、nosql、big、 data 和 technologies 
"position" : 1 
}, { 
"token" : "your", 


"start_offset" : 6, 
"end_offset" : 10, 


"type" : "<ALPHANUM>", 
"position" : 2 

} {í 
"token" : "experience", 


"start_offset" : 11, 
"end_offset" : 21, 


"type" : "<ALPHANUM>", 
"position" : 3 

}, { 
"token" : "with", 


"start_offset" : 22, 
"end_offset" : 26, 


"type" : "<ALPHANUM>", 
"position" : 4 

}, { 
"token" : "nosql", 


"start_offset" : 27, 
"end_offset" : 32, 


"type" : "<ALPHANUM>", 
"position" : 5 

}, { 
"token" : "big", 


"start_offset" : 35, 
"end_offset" : 38, 
"type" : "<ALPHANUM>", 
"position" : 6 


t, { 


"token" : "data", 
"start_offset" : 39, 
"end_offset" : 43, 


"type" : "<ALPHANUM>", 
"position" : 7 

ty 
"token" : "technologies", 


"start_offset" : 44, 
"end_offset" : 56, 
"type" : "<ALPHANUM>", 
"position" : 8 


分 析 API 中 最 为 重要 的 输出 是 token 键 。 输 出 是 一 组 这 样 映射 的 
列表 ， 代 表 了 处 理 后 的 分 词 (实际 上 ， 就 是 这 些 分 词 将 会 被 写 入 到 索 
引 中 ) 。 例 如 ， 输 入 文本 “share your experience with NoSql & big data 
technologies” 后 ， 将 获得 8 个 分 词 ， 即 share、your、experience、 
with、nosql、big、data 和 technologies 。 请 注意 ， 这 个 案例 


使 用 了 标准 的 分 析 器 ， 每 个 分 词 被 转换 为 小 写 ， 每 个 句子 结尾 的 标点 
符号 也 被 去 除 。 这 是 一 个 非常 棒 的 测试 文档 的 方法 ， 看 看 Elasticsearch 
们 的 ， 而 且 API 还 有 数 个 方法 可 以 定制 运用 于 文本 上 的 
oy 步骤 ° 


5.3.1 ”选择 一 个 分 析 赂 


如 采 你 心中 已 经 设想 了 一 个 分 析 器 ， 而 且 想 看 看 它 是 如 何 处 理 文 
本 的 ， 那 么 可 以 将 analyzer 参 数 设 置 为 这 个 分 析 缉 的 名 字 。 下 一 下 将 逐 
内 置 分 析 器 ， 如 末 想 竹 试 所 有 的 这 些 ， 请 务必 记 住 这 个 
BEV E | 


如 果 在 elasticsearch.yml 文 件 中 配置 了 一 个 分 析 絮 ， 你 也 可 以 通过 
analyzer 参数 中 的 名 字 来 指 癌 它 。 另 外 ， 如 果 已 经 使 用 类 似 代码 清 
单 5-2 的 定制 分 析 需 创建 了 一 个 索引 ， 你 仍然 可 以 通过 名 字 来 使 用 这 个 
分 析 絮 ， 但 是 不 再 是 使 用 HTTP 的 /_search 端点 ， 而 是 需要 首先 指 
定 索引 。 下 面 展示 了 使 用 名 为 getrtogether 的 索引 和 名 为 
myCustomAnalyzer 的 分 析 器 的 一 个 例子 : 


% curl -XPOST 'localhost:9200/get-together/_analyze? 
analyzer=myCustomAnalyzer ' 


-d 'share your experience with NoSql & big data technologies' 


5.3.2 ”通过 组 合 即 兴 地 创建 分 析 器 


有 的 时 候 ， 你 可 能 不 想 使 用 内 置 分 析 右 ， 而 是 莹 试 分 词 融 和 分 
wie phe ele 例如 ， 在 没有 任何 其 他 4 分 析 步 又 的 篆 况 下 ， pean 
特定 的 分 词句 如 何 切 分 句子 。 有 了 分 析 的 API， a 

fn A — 组 分 ene 用 于 文本 的 分 析 。 例 如 ， 2o 站 
器 (按照 空白 来 切 分 文本 ) ， 然 后 使 用 小 写 和 反 转 分 词 过 滤器 PA 
这 样 做 : 


% curl -XPOST 'localhost:9200/ 
_analyze?tokenizer=whitespace&filters=lowercase,reverse' -d 'share 


your 
experience with NoSql & big data technologies' 


将 获得 如 下 的 分 词 : 


erahs, ruoy, ecneirepxe, htiw, lqson, &, gib, atad, seigolonhcet 


词 器 首先 将 句子 “share your experience with NoSql & big data 
ae 4y share » your » experience * with ` NoSq] ` 


& big ` data#itechnologies 。 接 下 来 ， 它 将 这 些 分 词 转换 为 小 
写 ， 最 后 将 每 个 分 词 反 转 过 来 ， 获 得 结果 词 条 。 


5.3.3 TRF RRA AT 


一 旦 开始 创建 索引 的 映射 ， 分 析 API 也 是 很 有 价值 的 ， 这 是 因为 
Elasticsearch 人 允许 你 基于 所 创建 的 映射 字段 来 进行 分 析 。 如 果 像 下 面 的 
代码 片段 这 样 创建 了 description 字段 的 映射 : 


. other mappings ... 
"description": { 


"type": "string", 
"analyzer": "myCustomAnalyzer" 


JATE LLL RH Mild 参数 求全 用 和 这 个 字段 关 器 的 分 
fe 


% curl -XPOST 'localhost :9200/get-together/_analyze? 
field=description' -d ' 


share your experience with NoSql & big data technologies' 


由 于 定制 的 分 析 与 description 字段 进行 了 关联 ， 它 会 被 自动 
地 运用 在 文本 分 析 上 。 请 记 住 为 了 使 用 这 个 特性 ， 需 要 指定 一 个 索 
引 ， 原 因 是 Elasticsearch 需 要 从 索引 中 获取 特定 字段 的 映射 。 


现在 已 经 讨论 了 如 何 使 用 cURL 来 测试 不 同 的 分 析 絮 ， 接 下 来 我 们 
将 深入 Elasticsearch 提 供 的 各 种 不 同 分 析 器 。 请 记 住 ， 忌 是 可 以 组 合 不 
同 的 模块 (分 词 占 和 分 词 过 滤 右 ) 来 创建 目 己 的 分 析 器 。 


5.3.4 ”使 用 词 条 向 量 API 来 学 习 索 引 词 条 


当 考 虑 合适 的 分 析 絮 时 ， 前 一 坟 的 _analyze 端点 是 个 很 好 的 方 
法 。 但 是 对 于 特定 文档 中 的 词 条 ， 如 果 想 学 习 更 多 内 容 ， 就 存在 一 个 
比 通 历 所 有 单独 字段 更 有 效 的 方法 。 可 以 使 用 _termvector KIIA 
来 获取 词 条 的 更 多 信息 。 使 用 这 个 并 点 束 可 以 了 解 词 条 ， 了 解 它 们 在 
文档 中 、 索 引 中 出 现 的 频率 ， 以 及 出 现在 文档 中 的 位 置 。 


端点 _termvector 的 基本 使 用 方法 是 这 样 的 : 


% curl 'localhost:9200/get -together/group/1/_termvector? 


pretty=true' 
{ 
"_ index" 
"type" "group", 
"id" i Dea 
"_ version" 1, 
"found" true, 
"term_vectors" { 
"description" { 
"field_statistics" 
"sum_doc_freq" 
"doc_count" 12, 
"sum_ttf" 209 
文档 中 出 现 多 次 ， 那 么 一 定 会 大 于 9 


}, 
{ 


e- 


197, 


"get-together", 


- -返回 词 条 信息 
{ 一- -- 该 字段 中 词 条 的 


统计 数据 


H 


=- - -该 字段 中 所 有 词 条 的 文档 频率 之 和 


一 - -包含 这 个 字段 的 文档 


- - -字段 中 所 有 词 条 频率 之 和 。 如 有 


--- -包含 字段 description 中 所 有 词 


"terms" 
{ 


于 结果 数 


四 的 词 条 


"about" 
"term_freq" : 
"tokens" [ { 

"position" 
"start_offset" 
"end_offset" 


} ] 


eas ae 


1, 


{ 


"term_freq" : 
"tokens" [ { 
"position" 
"start_offset" 

"end_offset" 


} ] 
ty 


"clojure" { 
"term_freq" : 
"tokens" [ 区 

"position" 2 

"start_offset" 

"end_offset" 

{ 

"position" 1 

"start_offset" 

"end_offset" 


} ] 
}, 


. More terms omitted 


1, 


2, 


ty 


ia 


e- 


~~~ - 词 条 在 字段 中 


16, 


90, 
95 


13, 


75, 
78 


了 
9, 
16 


T, 
96, 
103 


数量 


一 个 词 条 在 一 个 


条 的 对 象 


- 词 条 在 这 个 字段 中 出 现 的 次 数 


还 有 些 东 西 是 可 以 配置 的 ， 其 中 之 一 是 词 条 统计 数据 ， 请 注意 了 
个 操作 消耗 很 大 。 下 面 的 命令 展示 了 如 何 修改 请 求 。 现 在 ， 指 定 了 需 
要 统计 数据 的 字段 : 


% curl 'localhost:9200/get-together/group/1/_termvector? 
pretty=true' -d '{ 


"fields" : ["description","tags"], 
"term_statistics" : true 


} 1 


下 面 是 啊 应 的 一 部 分 ， 只 显示 了 一 个 词 条 ， 结 构 和 之 前 的 代码 样 
例 相 同 。 


"about" : { =--- 展 示 信 息 的 词 条 
"doc_freq"” : 2， =---- 出 现 这 个 词 条 的 文档 数 
"ttf" : 2, =---- 索 引 中 该 词 条 的 总 词 频 
"term_freq" : 1, 
"tokens" : [ { 


"position" : 16, 
"start_offset" : 90, 
"end_offset" : 95 
+ ] 
} 


ME, CAS TRE DARLENE, LRA eT aS 
的 结果 。 在 下 一 节 中 探索 内 置 分 析 器 的 时 候 ， 将 会 持续 使 用 


_analyze 和 _termvector API ° 


5.4 分析 大 、 分 词 兹 和 分 词 过 滤 胡 


本 市 将 讨论 Elasticsearch 所 提供 的 内 置 分 析 器 An Poy Tal ie 
aa ° Elasticsearchfe ft Sif Six Pee, Vhs ih ete 特 


定语 言 、 同 义 词 等 。 因 此 ， 可 以 有 充足 的 灵活 性 ， 以 不 同 的 方式 来 组 
合 它 们 ， 获 得 想 要 的 分 词 。 


5.4.1 ”内置 的 分 析 器 


本 贡 提 供 了 Elasticsearch 直 接 可 用 分 析 器 的 一 个 纲要 。 请 记 住 ， 一 
个 分 析 志 包括 一 个 可 选 的 字符 过 滤器 、 一 个 单个 分 词 右 、0 个 或 多 个 分 
词 过 滤器。 图 5-2 是 一 个 分 析 句 的 可 视 化 图 片 。 


输入 文本 


输出 分 词 


图 5-2 分 析 器 的 概览 
我 们 将 介绍 分 词句 和 分 词 过 滤器 ， 并 在 接 下 来 的 几 和 提供 更 多 分 


词 占 和 分 词 过 滤 如 的 细 市 。 对 于 每 个 分 析 帮 都 将 提供 一 个 文本 的 示 
例 ， 用 于 展示 使 用 那 种 分 析 右 的 分 析 步 又 是 怎样 运作 的 。 


1. 标准 分 析 器 
当 没 有 指定 分 析 器 的 上 时候， 标准 分 析 絮 。”(standard analyzer) 是 文 


本 的 协 认 分 析 器 。 它 综合 了 对 大 多 欧洲 语言 来 说 合理 的 默认 模块 ， 包 
括 标准 分 词 占 、 标 准 分 词 过 滤 絮 、 小 写 园 换 分 词 过 滤 絮 和 停 用 词 分 词 
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我 们 将 探讨 标准 分 词句 和 标准 分 词 过 滤器 会 进行 何 种 操作 。 这 里 只 需 

ate WRRART FERED Mae, BART EMA AIMED 
ae o 


2. 简单 分 析 器 

简单 分 析 器 (simple analyzer) 就 是 那么 简单 ! 它 只 使 用 了 小 写 
转换 分 词 器 ， 这 意味 着 在 非 字 母 处 进行 分 词 ， 并 将 分 词 自动 转变 为 小 
写 。 这 个 分 析 器 对 于 亚洲 语言 来 说 效果 不 佳 ， 因 为 亚洲 语言 不 是 根据 
空白 来 分 词 ， 所 以 请 仅仅 针对 欧洲 语言 使 用 它 。 
3. 空白 分 析 器 


23 Aa Ntas (whitespace analyzer) 什么 事情 都 不 做 ， 只 是 根据 空 
白 将 文本 切 分 为 若干 分 词 一 一 非常 简单 ! 


4. 停 用 词 分 析 器 


停 用 词 分 析 器 (stop analyzer) 和 人 简单 分 析 器 的 行为 很 相像 ， 只 
是 在 分 词 流 中 额外 地 过 滤 了 停 用 词 。 


5. 关键 词 分 析 器 

关键 词 分 析 器 ”(keyword analyzer) 将 整个 字段 当 作 一 个 单独 的 分 
词 。 请 记 住 ， 最 好 是 将 index 设置 指定 为 not_analyzed ， 而 不 是 
在 映射 中 使 用 关键 词 分 析 器 。 
6. 模式 分 析 器 

模板 分 析 器 ”(pattern analyzer) 允许 你 指定 一 个 分 词 切 分 的 模 


式 。 但 是 ， 由 于 可 能 无 论 如 何 都 要 指定 模式 ， 通 营 更 有 意义 的 做 法 是 
使 用 定制 分 析 器 ， 组 合 现 有 的 模式 分 词句 和 所 需 的 分 词 过 沽 大 。 


7. 语言 和 多 语言 分 析 器 


Elasticsearch 支 持 许 多 能 直接 使 用 的 特定 语言 分 析 器 。 有 支持 阿拉 
伯 语 、 亚 美 尼 亚 语 、 巴 斯 克 语 、 巴 西 语 、 保 加 利 亚 语 、 加 泰 罗 尼 亚 
E MES HE ` Phe S mE PRE WAA RE HE > 
WEE > DNA PRIS ` Bs PARTS. RIRE ` E ` Ais ` 
FIR ERIS» BAA ` BRS ` WEE ` ATI. pae 
E RE EREE ` AHDE > mE tA RAAT 
as ° VRAY DER 2 A PORTE PER Sa ras, BER 
保 使 用 了 小 写 的 名 字 ! 如 果 你 想 分 析 不 在 这 个 清单 中 的 语言 ， 可 能 还 
要 有 相应 的 插件 。 


8. BER ae 


ZORA tas (snowball analyzer) 除了 使 用 标准 的 分 词 器 和 分 词 过 
滤器 (和 标准 分 析 器 一 样 ) ， 也 使 用 了 小 写 分 词 过 滤器 和 停 用 词 过 滤 
如。 它 还 使 用 了 雪 球 词 干 器 对 文本 进行 词 干 提取 。 如 有 果 不 清楚 什么 是 
词 干 提取 ， 不 用 担心 ， 我 们 将 在 本 章 结 尾部 分 讨论 其 更 多 细 广 。 


在 充分 理解 这 些 分 析 器 之 前 ， 你 需要 了 解 分 析 器 的 组 成 部 分 ， 所 
以 现在 来 讨论 Elasticsearch 所 文 持 的 分 词 器 。 


5.4.2 “分词 器 


根据 本 章 的 早 些 内 容 ， 你 可 能 回想 起 来 ， 分 词 的 操作 是 将 文本 字 
符 串 分 解 为 小 块 ， 而 这 些小 块 被 称 作 分 词 (token) ° FA-FElasticsearch 
包含 了 直接 可 以 使 用 的 分 析 器 ， 它 同样 包含 了 一 些 内 置 分 词 器 。 


1. 标准 分 词 器 


标准 分 词 器 (standard tokenizer) 是 一 个 基于 语法 的 分 词 器 ， 对 
于 大 多 数 欧洲 语言 来 说 是 不 错 的 。 它 还 处 理 了 Unicode 文 本 的 切 分 ， 不 
过 分 词 默认 的 最 大 长 度 是 255。 它 也 移 除 了 逗号 和 句号 这 样 的 标点 符 
= o 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=standard' -d 'I 


have, potatoes.' 


切 分 后 的 分 词 是 TI、have 和 potatoes 。 
2 .关键 词 分 词 器 
关键 词 分 词 器 (keyword tokenizer) 是 一 种 简单 的 分 词 器 ， 将 整 


个 文本 作为 单个 的 分 词 ， 提 供给 分 词 过 滤 占 。 只 想 应 用 分 词 过 滤 右 ， 
而 不 做 任何 分 词 操作 时 ， 它 可 能 非常 有 用 。 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=keyword' -d 'Hi, 


there. ' 


唯一 的 分 词 是 HI， there 。 
3. 字母 分 词 器 
字母 分 词 需 (letter tokenizer) 根据 非 字 母 的 符号 ， 将 文本 切 分 成 


分 词 。 例 如 ， 对 于 句子 “Hi, there.” 分 词 是 Hi 和 there ， 因 为 人 逗号 、 空 
格 和 句号 都 不 是 字母 : 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=letter' -d 'Hi, 


there. ' 


分 词 是 Hi 和 there 。 
4. 人 小写 分 词 髓 


小 写 分 词 器 (lowercase tokenizer) 结合 了 和 常规 的 字母 分 词 器 和 小 
写 分 词 过 滤器 (如 你 所 想 ， 它 将 整个 分 词 转化 为 小 写 ) 的 行为 。 通 过 
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% curl -XPOST 'localhost:9200/_analyze?tokenizer=lowercase' -d 


'Hi, there.' 


分 词 是 hi 和 there 。 


ZHP 词 器 (whitespace tokenizer) 通过 空白 来 分 隔 不 同 的 分 
空 日 包括 空格 、 制 表 符 、 换 行 等 。 a 主意 ， 这 种 分 词 避 不 会 删除 
er 守 号 ， 所 以 文本 “Hi, there.” 的 分 词 结 果 是 : 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=whitespace' -d 


"Hi, there.' 


分 词 是 Hi, 和 there.。 


6. 模式 分 词 器 


RIND ay (pattern tokenizer) 允许 指定 一 个 任意 的 模式 ， 将 文 
本 切 分 为 分 词 。 定 的 模式 应 该 匹配 间隔 符号 。 例 如 ， 可 以 创建 一 
o 分 析 器 ， 它 在 出 现 文本 . - . 的 地 方 将 分 词 断 开 ， 看 上 去 就 是 下 
面 这 样 的 : 


% curl -XPOST 'localhost:9200/pattern' -d '{ 
"settings": { 
"index": { 
"analysis": { 
"tokenizer": { 
"natterni": { 
"type": "pattern", 
"pattern": "\\.-\\." 


% curl -XPOST 'localhost:9200/pattern/_analyze?tokenizer=patternt1' 
\ 


-d 'breaking.-.some.-.text' 


分 词 是 breaking、some 和 text ° 


7. UAX URL 电子 邮件 分 词 器 


在 处 理 身 语 单词 的 时 候 ， 标 准 分 词 右 是 非常 好 的 选择 。 但 是 ， 当 
下 存在 不 少 以 网 站 地 址 和 电子 邮件 地 址 结束 的 文本 。 标 准 分 析 器 可 能 
在 你 未 注意 的 地 方 对 其 进行 了 切 分 。 例 如 ， 有 一 个 电子 邮件 地 址 的 样 
本 john.smith@example.com， 用 标准 分 词 需 分 析 它 ， 切 分 后 : 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=standard' \ 


-d 'john.smith@example.com' 


分 词 是 john .smith 和 example.com。 ~~ 


这 里 可 以 看 到 文本 被 切 分 为 john .smith 和 example,com 两 部 
分 。 它 同样 将 URL 切 分 为 不 同 的 部 分 : 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=standard' \ 


-d 'http://example.com?q=foo' 


分 词 是 http、example.com、q 和 foo。 


UAX URL 电 子 邮 件 分 词 器 (UAX URL email tokenizer) 将 电子 邮 
件 和 URL 都 作为 单独 的 分 词 进行 保留 : 


% curl -XPOST 'localhost:9200/_analyze?tokenizer=uax_url_email' \ 
-d 'john.smith@example.com http://example.com?q=bar ' 


"tokens" : [ { 
"token" : "john.smith@example.com", 
"start_offset" : 1, 


"end_offset" : 23, 
"type" : "<EMAIL>", ~--- 这 里 展示 了 分 词 结果 
多 255 个 字符 
"position" : 1 
}, { 
"token" : "http://example.com?q=bar", 
"start_offset" : 24, 
"end_offset" : 48, 
"type" : "<URL>", 
"position" : 2 


} ] 
} 


当 想 在 文本 字段 中 搜索 确切 的 URL 地 址 或 电子 邮箱 地 址 的 时 候 ， 
这 一 点 非常 有 用 。 这 个 示例 也 包含 了 请 求 的 回复 ， 从 中 可 以 看 到 字段 
的 类 型 也 被 设置 为 emai1 和 ur1L。 


8. 路 径 层 次 分 词 器 


路 人 径 层次 分 词 器 。(path hierarchy tokenizer) 允许 以 特定 的 方式 索 
引文 件 系统 的 路 径 ， 这 样 在 搜索 时 ， 共 享 同样 路 径 的 文件 将 被 作为 结 
采 返 回 。 例 如 ， 假 设 有 一 个 文件 名 想 要 有 索引， 看 上 去 是 这 样 
的 /uswlocalvarvlog/elasticsearch.log。 路 径 层 次 分 词 器 将 其 切 分 为 : 


% curl 'localhost:9200/_analyze?tokenizer=path_hierarchy' \ 


-d '/usr/local/var/log/elasticsearch.1log' 


sy iil 
是 /usr ` /usr/local ` /usr/local/var ` /usr/local/var/1 
og 和 /usr/local/var/ log/elasticsearch.1log ° 


这 意味 着 ， 一 个 用 户 查 询 时 ， 和 上 述 文件 共享 同样 路 径 层次 (名 
字 也 是 如 此 ) 的 文件 也 会 被 匹配 上 。 查询 "/usplocal/varlogles， log” 时 , 
它 和 “/usr/local/var/log/elasticsearch.log” 拥 有 同样 的 分 词 ， 因 此 它 也 会 
被 作为 结果 返回 。 


我 们 已 经 讨论 了 将 文本 块 切 分 为 分 词 的 不 同方 式 ， 接 下 来 讨论 
对 每 个 分 词 做 些 什么 。 


5.4.3 SIEA 
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因为 列举 所 有 分 词 过 滤 需 将 使 本 和 过 于 了 元 长 ， 就 像 图 5 1 所 示 。 
SAC a hae 的 例子 ， 即 1owercase 过 滤器 
stopwordit jest synonym wikas ° 


share your experience with NoSql 
big | 


data || technologies 


| ana 


小 写 NoSql | 一 nosql | 


z- 


technologies, 
tools 


technologies | tools 


technologies | 一 


Share your ||experience with nosql 
big || data || technologies || tools 


图 5-3 ”分 词 过 滤器 接收 从 分 词 器 出 来 的 分 词 ， 然 后 为 索引 准备 数据 


1. 标准 分 词 过 滤器 


不 要 认为 标准 分 词 过 滤器 (standard token filter) 进行 了 什么 复杂 
的 计算 ， 实 际 上 它 什么 事情 也 没 做 ! 在 更 老 版 本 的 Lucene 中 ， 它 用 于 
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其 他 的 分 词 过 滤器 和 分 词句 处 理 掉 了 。 


2. 小 写 分 词 过 滤器 


小 写 分 词 过 滤器 ”(lowercase token filter) 只 是 做 了 这 件 事 : 将 任 
何 经 过 的 分 词 转换 为 小 写 。 这 应 该 非常 简单 也 易于 理解 。 


% curl 'localhost:9200/_analyze? 
tokenizer=keyword&filters=lowercase' -d 'HI 


THERE! ' 


分 词 是 hi there! 。 


3. 长 度 分 词 过 滤器 


长 度 分 词 过 滤器 (length token filter) 将 长 度 超出 最 短 和 最 长 限制 
范围 的 单词 过 滤 掉 。 举 个 例 于 ， 如 果 将 min 设 置 为 2 ， 并 将 max 设 置 为 
8 ， 任 何 小 于 2 个 字符 和 任何 大 于 8 个 字符 的 分 词 将 会 被 移 除 。 


% curl -XPUT 'localhost:9200/length' -d '{ 
"settings": { 
"index": { 
"analysis": { 
"filter": { 
"my-length-filter": { 

"type": "length", 
"max": 8, 


"min": 2 


现在 在 索引 中 设置 了 定制 的 过 滤器 my-length-filter 。 下 一 
个 请 求 使 用 这 个 过 滤器 来 过 滤 所 有 小 于 2 个 或 大 于 8 个 字符 的 分 词 。 


% curl 'localhost:9200/length/_analyze? 
tokenizer=standard&filters=my -length- 


filter&pretty=true' -d 'a small word and a longerword' 


分 词 结 果 是 small、word 和 and 。 


4. 停 用 词 分 词 过 滤器 


停 用 词 分 词 过 滤器 (stop token filter) 将 停 用 词 从 分 词 流 中 移 
除 。 对 于 英文 而 言 ， 这 意味 着 停 用 词 列 表 中 的 所 有 分 词 都 将 会 被 完全 
移 除 。 用 户 也 可 以 为 这 个 过 滤 絮 指定 一 个 待 移 除 单词 的 列表 。 


什么 是 集 用 词 ? 下 面 古 英文 的 默认 集 用 词 列表 : 


a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, 
or, such, that, the, their, then, 


there, these, they, this, to, was, will, with 
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% curl -XPOST 'localhost:9200/stopwords' -d'f{ 
"settings": { 
"index": { 
"analysis": { 
"analyzer": { 
"stopi": { 
"type": "custom", 
"tokenizer": "standard", 
"filter": ["my-stop-filter"] 
} 
ty 
"Filter": { 
"my-stop-filter": { 
"type": "stop", 


"stopwords": ["the", "a" "an" ] 


为 了 从 某 个 文件 读 取 俘 用 词 列 表 ， 可 以 使 用 相对 于 配置 文件 的 相 
对 路 径 或 是 绝对 路 径 。 每 个 单词 应 该 在 新 的 一 行 上 ， 文件 必须 征 UTF- 
8 编码 。 最 好 通过 下 面 的 方式 来 使 用 配置 文件 的 售 用 词 过 滤 絮 


% curl -XPOST 'localhost:9200/stopwords' -d'{ 
"settings": { 
"index": { 
"analysis": 
"analyzer": 
"stopi": 
"type": "custom", 
"tokenizer": "standard", 
"filter": ["my-stop-filter"] 
} 
ty 


"filter": { 
"my-stop-filter": { 
"type": "stop", 
"stopwords_path": "config/stopwords.txt" 
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词 的 取 值 可 以 是 ”dutch ”， 或 是 其 他 任何 的 预定 义 语言 。 


5. 截断 分 词 过 滤器 、 修 剪 分 词 过 滤器 和 限制 分 词 数量 过 滤器 
下 面 3 个 分 词 过 滤 絮 ， 通 过 某 种 方式 限制 分 词 流 。 


。 截断 分 词 过 滤器 ”(truncate token filter) 允许 你 通过 定制 配置 中 的 
length 参数 ， 和 截断 超过 一 定 长 度 的 分 词 。 默 认 截 断 多 于 10 个 字 
符 的 部 分 。 
修剪 分 词 过 滤器 (trim token filter) 删除 一 个 分 词 中 的 所 有 空白 
部 分 。 例 如 ， 分 词 "foo" 将 被 转变 为 分 词 foo 。 

。 限制 分 词 数量 分 词 过 滤器 (limit token count token filter) 限制 了 
某 个 字段 可 包含 分 词 的 最 大 数量 。 例 如 ， 如 果 创 建 了 一 个 定制 的 
分 词 数量 过 滤器 ， 限 制 是 8 ， 那 么 分 词 流 中 只 有 前 8 个 分 词 会 被 索 
引 。 这 个 设置 使 用 max_token_count 人 参数 ， 默 认 是 1 (只 有 1 个 
分 词 会 被 索引 ) 。 


6. 其 倒 分 词 过 滤器 


HEI sy a EAs (reverse token filter) 人 允许 处 理 一 个 分 词 流 ， 并 
颠倒 每 个 分 词 。 如 果 使 用 侧 边 N 元 语法 过 滤器 或 是 想 进 行 前 通 配 搜 
索 ， 这 一 点 就 非常 有 用 。 你 不 用 再 进行 “*bar" 这 样 的 前 通配符 搜索 。 
这 种 搜索 对 于 Lucene 而 言 非 常 慢 ， 相 反 可 以 使 用 “rab*” 对 某 个 已 经 被 
颠倒 的 字段 进行 搜索 ， 会 使 得 查询 大 幅 加 速 。 代 码 清 单 5-4 展 示 了 一 个 
颠倒 分 词 流 的 示例 。 


代码 清单 5-4 ”颠倒 分 词 过 滤器 的 例子 


% curl 'localhost:9200/_analyze? 
tokenizer=standard&filters=reverse' 
-d 'Reverse token filter' 


\ 


"tokens" : [ { 
"token" : "esreveR", =---- 被 颠倒 的 单词 4Reversey7 
"start_offset" : 0, 
"end_offset" : 7, 
"type" : "<ALPHANUM>", 
"position" : 1 
}, { 
"token" : "nekot", 
"start_offset" : 8, ---- WENERA token” 
"end_offset" : 13, 
"type" : "<ALPHANUM>", 
"position" : 2 
}, { 
"token" : "retlif", ---- WEMA filter” 


"start_offset" : 14, 
"end_offset" : 20, 
"type" : "<ALPHANUM>", 
"position" : 3 


} ] 


可 以 看 到 每 个 分 词 都 被 颠倒 了 ， 但 是 分 词 之 间 的 相互 顺序 得 以 保 


7. 唯一 分 词 过 滤器 


唯一 分 词 过 滤器 (unique token filter) 只 保留 唯一 的 分 词 ， 它 保 
留 第 一 个 匹配 分 词 的 元 数据 ， 而 将 其 后 出 现 的 重复 删除 : 


% curl 'localhost:9200/_analyze?tokenizer=standard&filters=unique' 
\ 
-d 'foo bar foo bar baz' 


"tokens" : [ { 
"token" : "foo", 
"start_offset" : 0, 
"end_offset" : 3, 
"type" : "<ALPHANUM>", 
"position" : 1 

{ 

"token" : "bar", 
"start_offset" : 4, 
"end_offset" : 7, 
"type" : "<ALPHANUM>", 
"position" : 2 


T 

"token" : "baz", 
"start_offset" : 16, 
"end_offset" : 19, 
"type" : "<ALPHANUM>", 
"position" : 3 


} 


8. ASCIIP EN wees 


ASCII 折 县 分 词 过 滤器 (ASCII folding token filter) 将 不 是 普通 
ASCII 字 符 的 Unicode 字 符 转 化 为 ASCII 中 等 同 的 字符 ， 前 提 是 这 种 等 
同 存在 。 例 如 ， 可 以 像 这样 将 Unicode 字 符 “ WF LA ASCUF FFU”: 


% curl 'localhost:9200/_analyze? 
tokenizer=standard&filters=asciifolding' -d 
‘Unicode ' 


"tokens" : [ { 
"token" : "unicode", 


"start_offset" : 0, 
"end_offset" : 7, 
"type" : "<ALPHANUM>", 
"position" : 1 


9. 同义词 分 词 过 滤 帮 


同义词 分 词 过 小 覆 (synonym token filter) 在 分 词 流 中 的 同样 位 
移 处 ， 使 用 天 键 词 的 同义词 取代 原始 分 词 。 例 如 ， 来 看 看 文本 “I own 
that automobile” 和 两 个 同义词 “automobile”car”。 如 果 不 使 用 同义词 分 
词 过 滤器 ， 将 生成 如 下 分 词 : 


% curl 'localhost:9200/_analyze?analyzer=standard' -d'I own that 
automobile' 


"tokens" : [ { 
"token" : ae Ie 
"start_offset" : 0, 
"end_offset" : 1, 


"type" : "<ALPHANUM>", 
W 1 1 " . 
position" : 1 
}, 1 
"token" : "own", 


"start_offset" : 2, 
"end_offset" : 5, 
"type" : "<ALPHANUM>", 
"position" : 2 


}, { 


"token" : "that", 
"start_offset" : 6, 
"end_offset" : 10, 


"type" : "<ALPHANUM>", 
"position" : 3 

}, { 
"token" : "automobile", 


"start_offset" : 11, 
"end_offset" : 21, 
"type" : "<ALPHANUM>", 
"position" : 4 


}] 


% curl -XPOST 'localhost:9200/syn-test' -d'{ 
"settings": { 
"index": { 
"analysis": { 
"analyzer": { 
"synonyms": { 

"type": "custom", 

"tokenizer": "standard", 

"filter": ["my-synonym-filter"] 


} 


ty 
"filter": { 
"my-synonym-filter": { 
"type": "synonym", 
"expand": true, 
"synonyms": ["automobile=>car"] 


当 使 用 这 个 分 析 器 的 时 候 ， 可 以 看 到 在 结果 中 automobile 分 词 
已 经 被 替换 为 car : 


% curl 'localhost:9200/syn-test/_analyze?analyzer=synonyms ' 


own that 
automobile' 


"tokens" : 
"token" : 


[ { 


uM 


"start_offset" : 


"end_offset" : 
"type" : 
"position" 


了 
"token" : 


"end_offset" : 

"type" : 

"position" 
{ 


"token" : 


"end_offset" : 
"type" : 
"position" 


了 
"token" : 
"Sstart_offset" : 


0, 
1, 


"<ALPHANUM>", 
: a 


W own W j 
"start_offset" : 


2, 
5, 


"<ALPHANUM>", 
: 2 


"that", 
"Start_offset" : 


6, 
10, 


"<ALPHANUM>", 
: 3 


"car"! j 


-d'I 


11, 


移 量 end_offset 使 
"end_offset" : 


的 是 automobile 


21, 


---- EB 


AG 


始 的 位 移 量 start_offset 和 结束 的 位 


= 
H 


"type" : "SYNONYM", 
"position" : 4 


} ] 
} 


XP OFAC T EOOH E, EREA TR] S RRI 
词 ， 但 是 也 可 以 使 用 这 个 过 滤器 将 synonynm 分 词 额外 添加 到 分 词 集合 
中 。 在 这 种 情况 下 ， 应 该 使 用 automobile, car RP t% 


automobile=>car ° 
语法 、 侧 边 N 元 语法 和 滑动 窗口 


N 元 语法 (ngram) 和 侧 边 N 元 语法 (edge ngram) 是 Elasticsearch 
中 两 个 更 为 独特 的 分 词 方式 。 N 元 语法 是 将 一 个 单词 切 分 为 多 个 子 单 


=> 


5.9 NIC 


词 。N 元 语法 和 侧 边 N 元 语法 过 滤器 允许 用 户 指定 min_gram 和 
max_gram 设置 。 这 些 设置 控制 单词 被 切 分 为 分 词 的 数量 。 这 一 点 可 
能 让 人 有 些 费 解 ， 所 以 来 看 一 个 例子 。 假 设 你 想 使 用 N 元 语法 分 析 器 
eee 以 最 简单 的 例子 开始 ，1-grams (也 被 称 为 一 
元 语 # ° 


5.5.1 一 元 语法 过 滤器 


“spaghetti” 的 一 元 语法 (1-grams) 是 s、p~a~“g、“h~e、t、t 
和 主 。 按 照 N 元 语法 的 大 小 ， 字 符 串 被 切 分 为 更 小 的 分 词 。 在 这 个 例 
子 中 ， 因 为 讨论 的 是 一 元 模型 ， 所 以 每 个 项 目 是 单独 的 字符 。 


5.5.2 ”二 元 语法 过 滤器 


如 果 将 字符 串 切 分 为 二 元 语法 (bigrams， 意 味 着 两 个 字符 的 尺 
寸 ) ， 会 获得 如 下 更 小 的 分 词 : sp、pa、ag、gh、he、et、tt 和 
ti ° 


5.5.3 ”三 元 语法 过 滤器 


再 次 ， 如 果 使 用 3 个 字符 的 尺寸 (trigrams， 被 称 为 三 元 语法 ) ， 
将 获得 的 分 词 是 spa、pag、agh、ghe、het、ett 和 tti ° 


5.5.4 设置 min_gram 和 max_gram 


当 使 用 这 个 分 析 器 的 上 时候， 需要 设置 两 个 不 同 的 尺寸 ， 一 个 设置 
所 想 生 成 的 最 小 的 N 元 语法 (设置 nin_gram ) ， 另 一 个 设置 所 想 生 
成 的 最 大 的 N 元 语法 (设置 max_gram ) 。 使 用 前 面 的 例子 ， 如 果 指 
定 in_gram 为 2， 指 定 x_gram 为 3 ， 将 获得 两 个 先前 例子 的 合并 分 词 


集合 : 


sp,pa,pa,pag,ag,agh, gh, ghe,he, het,et,ett,tt,tti,ti 


如 果 将 min_gram 设 置 为 1， 将 max_gram 设 置 为 3， 会 获得 更 多 
的 分 词 ,以 s、sp、spa、~p、pa“pag、a...... eT Rs 


以 这 种 方式 分 析 文 本 包含 一 个 有 趣 的 优势 。 当 查询 文本 的 时 候 ， 
查询 会 被 以 同样 的 方式 进行 切 分 ， 假 设 用 户 正 在 查找 一 个 拼写 错误 的 
单词 “spaghety”。 一 种 搜索 该 词 的 方式 是 进行 模糊 查询 (fuzzy 
query) ， 它 人 允许 指定 单词 的 编辑 距离 来 匹配 它们 。 但 是 ， 也 可 以 使 用 
NN 元 语法 来 获得 类 似 的 行为 。 让 我 们 比较 一 下 原 词 “spaghetti” 生 成 的 二 
元 语法 和 错误 拼写 “spaghety” 所 生成 的 二 元 语法 。 


e 从 “spaghetti” 生 成 的 二 元 语法 : sp 、pa、ag、gh、he、et、tt 
Mti e 

。 从 “spaghety” 生 成 的 二 元 语法 : sp、pa、ag、gh、he、et 和 
ty ° 


可 以 看 到 其 中 有 6 个 分 词 是 重合 的 ， 所 以 单词 “spaghetti”* 依 然 可 以 
和 包含“spaghety” 的 查询 匹配 。 请 记 住 ， 这 意味 着 更 多 的 词 可 能 会 超出 
意料 而 匹配 上 原 词 “spaghetti”， 所 以 如 果 使 用 这 种 方式 ， 请 总 是 确保 测 
试 过 查询 的 相关 性 ! 


NN 元 语法 为 一 种 有 价值 的 用 处 在 于 ， 当 你 事先 并 不 知道 是 何 种 语 
言 ， 或 者 是 单词 结合 的 方式 和 欧洲 语言 不 同时 ， 它 仍然 允许 用 户 对 文 
本 进行 分 析 。 这 一 点 在 使 用 单个 分 析 费 来 处 理 多 种 语言 时 ， 同 样 是 具 
有 o 如 此 一 来 ， 束 无 须 为 不 同 语言 的 文档 指定 不 同 的 分 析 器 或 
字段 。 


5.5.5 MANTARLI 


普通 N 元 语法 切 分 的 一 种 变 体 被 称 为 侧 边 N 元 语法 ， 仅 仅 从 前 端的 
边缘 开始 构建 N 元 语法 。 在 “spaghetti” 的 例子 中 ， 如 果 将 min_gram 设 
置 为 2， 将 max_gram 设 置 为 6 ， 那 么 将 获得 如 下 分 词 : 


sp, Spa, spag, spagh, spaghe 


可 以 看 到 ， 每 个 分 词 都 是 从 最 前 端的 边缘 开始 。 这 有 助 于 在 不 进 
行 前 级 查询 的 情况 下 ， 搜 索 共 至 同样 前 绥 的 单词 。 如 果 需 要 从 某 个 单 
词 的 后 端 来 构建 N 元 语法 ， 可 以 使 用 side 属 性 ， 让 边缘 从 后 端 开 始 ， 而 


不 是 从 默认 的 前 端 开始 。 


5.5.6 ”NN 元 语法 的 设置 


当 不 知道 要 处 理 的 是 何 种 语言 时 ，N 元 语法 是 一 种 很 好 的 文本 分 
析 方 式 ， 因 为 它们 可 以 分 析 单 词 之 间 没 有 空格 的 语言 。 代 码 清单 5-5 是 
一 个 配置 的 例子 ， 它 使 用 了 min_gram 和 max_gram 配置 了 侧 边 N 元 


语法 分 析 器 。 


代码 清单 5-5 ”NN 元 语法 分 析 


% curl -XPOST 'localhost:9200/ng' -d'{ 
"settings": { 
"number_of_shards": 1, 
"number_of_replicas": 0, 
"index": { 
"analysis": { 
"analyzer": { 
"ng1": { 
"type": "custom", 
"tokenizer": "standard", 
"filter": ["reverse", "ngf1", 
ae, EE ` MAN 元 语法 和 再 次 颠倒 
ty 
"filter": { 
"ngf1": { 
"type": "edgeNgram", 
"min_gram": 2, 
尺寸 
"max_gram": 6 
} 


配置 一 个 分 析 


"reverse"] <--- 


~- - -设置 侧 边 N 元 语法 分 词 过 滤器 的 最 小 尺寸 和 最 大 


% curl -XPOST 'localhost:9200/ng/_analyze?analyzer=ng1' 


d'spaghetti' 


"tokens" [ { 
"token" "Ee 
"start_offset" 
"end_offset" 
"type" 
"position" 

{ 
"token" "tti", 
"start_offset" 
"end_offset" 
"type" 
"position" 

{ 
"token" "etti", 
"start_offset" : 0, 
"end_offset" : 9, 
"type" "word", 
"position" : 1 

{ 
"token" "hetti", 
"start_offset" : 0, 
"end_offset" : 9, 
"type" "word", 
"position" : 1 

{ 
"token" "ghetti", 
"start_offset" : 0, 
"end_offset" : 9, 
"type" "word", 
"position" : 1 


} ] 


=- - -分 析 后 的 分 词 ， 从 
: 0, 

: 9, 

"word", 

: 工 

}, 
—--- SHAS, AA 
: 0, 

: 9, 

"word", 

: 1 


ty 


ty 


ty 


5.5.7 ”请 动 窗 口 分 词 过 滤器 


A in]“spaghetti” 


有 词 “spaghetti” 


边 


+ 


有 一 个 过 滤器 被 称 为 滑动 窗口 分 词 过 滤器 (shingles) ， 和 N 
元 语法 以 及 侧 边 N 元 语法 沿用 了 同样 的 方式 。 请 动 窗口 分 词 过 滤 事 基 
本 上 十 分 词 级 别 的 N 元 语法 ， 而 不 是 字符 级 别 的 N 元 语法 。 


来 考虑 一 下 我 们 最 爱 的 单词 “spaghetti”。 使 用 min 和 max 分 别 设 置 
为 1 和 3 的 N 元 语法 过 滤 需 ，Elasticsearch 将 会 生成 sS、Sp、Sspa、p、 
pa、pag、a、ag 等 分 词 。 而 滑动 窗口 分 词 过 滤 怖 是 进行 分 词 级 别 的 
处 理 ， 所 以 如 果 有 文本 “foo barbaz”， 将 min_shingle_size 设 置 为 
2， 而 max_shingle_size 设 置 为 3 ， 将 会 生成 下 面 的 分 词 : 


foo, foo bar, foo bar baz, bar, bar baz, baz 


为 什么 还 会 包含 单个 分 词 的 结果 ? 这 是 由 于 默认 情况 下 ， 
shingles 过 滤 需 包括 了 原始 的 分 词 ， 所 以 原始 的 分 词 右 会 产生 
foo、bar 和 baz ， 然 后 将 它们 传送 给 shingles Ahia e i 
shingles 分 词 过 滤器 又 生 成 了 foo bar、foo bar baz 和 bar 
baz 。 上 所 有 这 些 分 词 被 合并 ， 然 后 形成 了 最 终 的 分 词 流 。 你 可 以 将 
output_unigrams 选 项 设置 为 false ， 来 关闭 这 种 行为 。 


代码 清单 5-6 展 示 了 一 个 shingles 分 词 过 滤器 的 例子 ， 请 注意 
min_shingle_size 选 项 的 值 必须 要 大 于 等 于 2 。 


代码 清单 5-6 滑动 窗口 分 词 过 滤器 样 例 


% curl -XPOST 'localhost:9200/shingle' -d '{ 
"settings": { 
"index": { 
"analysis": { 
"analyzer": { 
"Shinglei": { 
"type": "custom", 
"tokenizer": "standard", 
"filter": ["shingle-filter"] 
} 
ty 
"filter": { 
"shingle-filter": { 
"type": "shingle", 


"min_shingle_size": 2, ~--- 设 置 最 小 和 最 大 的 滑动 窗口 尺寸 

"max_shingle_size": 3, 

"output_unigrams": false “~--- 告 诉 滑动 窗口 分 词 过 滤器 不 要 保留 
原始 的 单个 词 分 词 


} 
} 1 
% curl -XPOST 'localhost:9200/shingle/_analyze?analyzer=shingle1' 
-d 'foo bar 


baz' 
"tokens" : [ { 
"token" : "foo bar", ~---- 分 析 后 的 滑动 窗口 分 词 


"start_offset" : 0, 
"end_offset" : 7, 


"type" : "shingle", 
"position" : 1 

}, { 
"token" : "foo bar baz", 


"start_offset" : 0, 
"end_offset" : 11, 


"type" : "shingle", 
"position" : 1 
}, { 
"token" : "bar baz", <--- 分 析 后 的 滑动 窗口 分 词 
"start_offset" : 4, 
"end_offset" : 11, 
"type" : "shingle", 
"position" : 2 


} ] 
} 


5.6 ”提取 词 干 


提取 词 干 是 将 单词 缩减 到 基本 或 词根 的 形式 。 在 搜索 的 时 候 ， 这 
种 处 理 是 非常 方便 的 ， 因 为 这 意味 着 用 户 可 以 匹配 单词 的 复数 ， 以 及 
有 同样 词根 的 单词 (因此 名 字 称 为 “提取 词 干 ”) 。 下 面 来 看 一 个 具体 
的 例子 。 如 果 单 词 是 “radministrations”， 单 词 的 词根 是 “administr”， 这 
让 用 户 可 以 匹配 所 有 同样 词根 的 单词 ， 


4 “administrator” “administration”’“administrate” ° 提取 词 干 是 一 种 强 有 


力 的 方法 ， 使 得 搜索 比 僵硬 的 精确 匹配 更 为 灵活 。 
5.6.1 算法 提取 词 干 


通过 算法 提取 词 干 ， 是 为 每 个 分 词 使 用 公式 或 一 组 规则 来 对 其 进 
行 词 干 的 获取 。Elasticsearch 提 供 3 种 不 同 的 词 干 算法 : snowball 过 
滤器 、porter stem 过 滤器 和 kstem 过 滤器 。 它 们 的 表现 行为 基本 
一 致 ， 不 过 在 提取 词 干 有 多 激进 的 方面 有 一 些 细微 的 差别 。 这 里 的 “ 激 
进 "， 是 指 相 对 于 不 激进 的 词 干 提取 器 ， 更 为 激进 的 词 干 提 取 絮 会 砍 挥 
单词 更 多 的 部 分 。 表 5-1 展 示 了 不 同 算法 分 词 器 之 间 的 对 比 。 


表 5-1 snowball 、porter 和 kstenm 的 词 干 提取 对 比 


为 了 看 看 词 干 提取 器 是 如 何 工作 的 ， 可 以 使 用 分 析 API 接 口 来 指 
定 它 为 分 词 过 滤器 。 


curl -XPOST 'localhost:9200/_analyze? 
tokenizer=standard&filters=kstem' -d 


‘administrators' 


将 snowball 过 滤器 、porter stem 或 者 kstem 作为 过 滤器 来 测试 
一 下 效果 。 


作为 算法 提取 词 干 的 另 一 种 替代 方法 ， 可 以 使 用 字典 来 提取 词 
干 ， 这 是 一 种 原始 词 和 词 干 之 间 的 一 对 一 映射 


5.6.2 ”使 用 字典 提取 词 干 


有 的 时 候 ， 算 法 词 干 提取 会 以 一 种 奇怪 的 方式 来 提取 单词 的 词 
干 ， 因 为 它们 并 不 理解 基层 的 语言 。 正 因为 此 ， 存 在 更 为 精确 的 方式 
来 提取 词 十， 那 吉 是 使 用 单词 字典 。 在 Elasticsearch 中 ， 可 以 使 用 
hunspell 分 词 过 滤器 ， 结 合 一 个 字典 ， 来 处 理 词 干 。 基 于 此 ， 词 干 


提取 的 质量 束 和 所 用 字典 的 质量 十 直接 相关 的 。 词 干 提取 右 只 能 处 理 


字典 里 存在 的 单词 。 


当 创 建 一 个 hunspell 分 析 器 的 了 时候 ， 字 — 典 文件 应 该 是 在 名 为 
hunspell 的 目录 里 ， 并 日 hunspell 目 录 和 elasticsearch.yml 处 于 同一 个 目 
录 中 。 在 hunspell 目 录 中 ， 每 种 语言 的 字典 是 一 个 以 其 天 联 地 区 命名 的 
目录。 这 里 是 如 何 使 用 hunspell 分 析 器 来 创建 索引 的 例子 : 


% curl -XPOST 'localhost:9200/hspell' 
"analysis" : { 
"analyzer" : { 
"hunAnalyzer" : { 
"tokenizer" : 
"filter" : 
} 


ty 
"filter" : { 
"hunFilter" : { 
"type" : "hunspell", 
"locale" : "en_US", 
"dedup" : true 


"standard", 
[ "lowercase", 


-d'{ 


"hunFilter" ] 


这 个 hunspell 的 字典 文件 应 该 是 在 <es-config - 
dir>/hunspell/en_US 目录 之 中 (使 用 Elasticsearch 配 置 和 目录 位 置 


来 奉 换 <es-config-dir> ) 。 这 里 使 用 了 en_US 目 录 是 因为 hunspell 
分 析 器 是 用 于 英文 的 ， 并 且 和 前 面 例 子 中 的 1ocale 设置 相对 应 。 还 
可 以 通过 设置 elasticsearch.yml 中 的 
indices.analysis.hunspell.dictionary.location 选项 ， 
修改 Elasticsearch 查 询 hunspell 字 典 的 位 置 。 为 了 测试 分 析 器 是 否 正确 
地 工作 ， 可 以 再 次 使 用 分 析 API。 


% curl -XPOST 'localhost:9200/hspell/_analyze? 


analyzer=hunAnalyzer' - 
d'administrations' 


5.6.3 Bape al The 


有 的 时 候 不 想 提取 单词 的 词 干 ， 因 为 词 干 提取 没有 正确 地 人 处理 这 
些 单 词 ， 或 者 想 对 特定 的 单词 进行 精确 匹配 。 那 么 就 可 以 在 分 词 过 滤 
句 链 条 中 的 词 干 过 滤器 之 前 ， 放 置 天 键 词 标记 (keyword marker) 分 
词 过 滤 右 ， 来 达到 这 个 目的 。 在 关键 词 标记 分 词 过 滤 锅 中 ， 用 户 可 以 
指定 单词 列表 或 者 是 包含 单词 列表 的 文件 ， 让 它们 不 被 提取 词 干 。 


除了 不 让 提取 单词 的 词 干 ， 更 有 帮助 的 是 手动 指定 一 组 用 于 词 干 
提取 的 规则 。 用 户 可 以 使 用 stemmer override 分 词 过 滤器 来 实 
现 。 它 允许 用 户 指 定 这 样 的 规则 : cats =>cat 。 如 果 stemmer 
override 发 现 一 条 规则 并 运用 于 一 个 单词 上 ， 那 个 单词 就 不 会 被 任 
何其 他 词 干 提取 器 处 理 。 


请 记 住 ， 以 上 两 个 分 词 过 滤 大 必 须 放置 在 任何 其 他 词 干 过 沽 大 之 
因为 它们 将 保护 词 条 之 后 不 会 被 链条 中 其 他 的 分 词 过 滤器 提取 词 


5.7 ”小结 


现在 读者 应 该 理解 了 Elasticsearch 在 索引 或 者 查询 之 前 ， 是 如 何 分 
解 一 个 字段 中 的 文本 。 文 本 被 拆 分 为 不 同 的 分 词 ， 然 后 过 滤 絮 用 于 创 


建 、 


删除 或 修改 这 些 分 词 


分 析 是 通过 文档 字段 的 文本 ， 生 成 分 词 的 过 程 。 在 match 查询 这 
样 的 查询 中 ， 搜 索 字 符 串 会 经 过 同样 的 过 程 ， 如 果 一 篇 文档 的 分 
词 和 搜索 字符 串 的 分 词 相 匹配 ， 那 么 它 就 会 和 搜索 匹配 。 

通过 映射 ， 每 个 字段 都 会 分 配 一 个 分 析 恬 。 分 析 器 既 可 以 在 
Elasticsearch 配 置 或 索引 设置 中 定义 ， 也 可 以 是 一 个 默认 的 分 析 
器 。 


分 析 器 是 处 理 的 链条 ， 由 一 个 分 词 器 以 及 若干 在 此 分 析 器 之 前 的 
字符 过 滤器 、 在 此 分 词 器 之 后 的 分 词 过 滤器 组 成 。 

在 字符 串 传 送 到 分 词 器 之 前 ， 字 符 过 滤器 用 于 处 理 这 些 字符 串 。 
例如 ， 可 以 使 用 映射 字符 过 滤 絮 将 字 件 “&”* 转 化 为 “and”。 

分 词 器 用 于 将 字符 串 切 分 为 多 个 分 词 。 例 如 ， 空 白 分 词 器 将 使 用 
空格 来 划分 单词 。 

分 词 过 滤器 用 于 处 理 分 词 器 所 产生 的 分 词 。 例 如 ， 可 以 使 用 词 干 
提取 来 将 单词 缩减 为 其 词根 ， 并 让 搜索 在 该 词 的 复数 和 单数 形式 
上 都 可 以 正常 运作 。 

NN 元 语法 分 词 过 滤器 使 用 单词 的 部 分 来 产生 分 词 。 例 如 ， 可 以 让 
每 两 个 连续 的 字符 生成 一 个 分 词 。 如 果 和 希望 即使 搜索 字符 串 包 含 
错误 拼写 ， 搜 索 还 能 奏效 ， 那 么 这 个 就 很 有 帮助 了 。 

侧 边 N 元 语法 就 像 N 元 语法 一 样 ， 但 是 它们 只 从 单词 的 头 部 或 结尾 
开始 。 例 如 ， 对 于 “event" 可 以 获得 e、ev 和 eve 分 词 。 

在 词组 级 别 ， 清 动 窗 口 分 词 过 滤器 和 N 元 语法 分 词 过 滤器 相似 。 
例如 ， 可 以 使 用 词组 里 每 两 个 连续 的 单词 来 生成 分 词 。 当 用 户 希 
望 提升 多 词 匹 配 的 相关 性 时 ， 例 如 ， 在 产品 的 简短 描述 中 ， 这 一 
点 就 很 有 帮助 。 下 一 章 将 讨论 更 多 相关 性 的 内 容 。 


第 6 章 ”使 用 相关 性 进行 搜索 


本 章 主要 内 容 


。 Lucene 和 Elasticsearch 内 部 打分 是 如 何 运 作 的 

。 提升 特 定 查 询 或 字段 的 得 分 

。 使 用 解释 的 API 接 口 来 理解 词 频 、 逆 文档 频率 、 相 关 性 得 分 
。 通过 重新 计算 文档 子 集 的 得 分 来 减少 评分 操作 的 性 能 影响 
。 使 用 function_score 查询 ， 获 取 终 极 的 打分 能 力 

。 字段 数据 的 缓存 ， 以 及 它 是 如 何 影响 Elasticsearch 实 例 的 


在 自由 文本 的 世界 里 ， 匹 配 一 个 文档 和 一 个 查询 是 许多 存储 和 搜 
索引 警 所 涉及 的 功能 。 使 得 Elasticsearch 查 询 和 SELECT * FROM 
users WHERE name LIKE 'bob%' 查询 不 同 的 是 其 为 文档 分 配 相 
关 性 得 分 的 能 力 。 从 这 个 得 分 ， 可 以 得 知 文档 和 原始 的 查询 有 多 人 么 相 


y 
O 


当 用 户 在 网 站 的 搜索 框 里 输入 查询 的 时 候 ， 他 们 不 仅仅 希望 找到 
和 和 查询 相 匹 配 的 结果 ， 还 希望 这 些 结果 是 按照 其 和 查询 条 件 的 相关 上 度 
而 进行 排名 的 。 事 实证 明 ， 确 定 文档 的 相关 性 时 ，Elasticsearch 是 相当 
， 而 且 它 还 提供 很 多 方法 让 你 自 定义 搜索 并 获得 更 相关 的 结 


当 你 并 不 是 特别 关心 一 个 文档 和 查询 的 匹配 程度 有 多 好 ， 而 只 是 
关心 匹配 或 不 匹配 的 时 候 ， 也 不 用 烦恼 。 本 章 也 会 提供 一 些 灵 活 的 方 
式 ， 来 过 滤 文 档 。 此 外 ， 理 解 字 段 数 据 的 缓存 也 是 很 重要 的 ， 这 是 内 
存 里 的 缓存， 当 按 照 这 些 字段 值 进行 排序 、 脚 本 运行 或 者 聚集 的 时 
候 ，Elasticsearch 使 用 该 缓存 来 存储 索引 中 文档 的 字段 值 。 


本 章 的 开始 将 讨论 Elasticsearch 的 打分 机 制 ， 以 及 默认 打分 算法 的 
远 代 方案 。 接 下 来 是 使 用 提升 机 制 (boosting) 来 直接 影响 打分 。 然 后 
探讨 使 用 解释 API 接 口 来 理解 得 分 是 如 何 计算 的 。 之 后 ， 将 涵盖 如 何 
使 用 查询 再 计 分 来 减 小 原 有 打分 机 制 的 有 影响， 使 用 功能 打分 查询 来 扩 
展 查 询 ， 并 使 其 具有 对 得 分 的 终极 控制 权 ， 以 及 使 用 脚本 来 和 目 定义 排 


序 。 最 后 将 谈论 内 存 中 的 字段 数据 缓存 ， 它 是 如 何 影响 用 户 的 查询 ， 
以 及 被 称 为 文档 值 的 琶 代 方案 。 


在 谈 及 字段 数据 缓存 之 前 ， 我 们 先 来 看 看 Elasticsearch 是 如 何 为 文 
档 计算 得 分 的 。 


6.1 Elasticsearch 的 打分 机 制 


一 开始 的 时 候 ， 仅 仅 以 二 元 的 方式 来 考虑 文档 和 查询 的 匹配 可 能 
也 是 有 意义 的 ， 也 就 是 “是 的 ， 匹 配 了 ”或 “不 ， 没 有 匹配 ”。 尺 管 如 
此 ， 考 虑 文档 的 相关 性 (relevancy) 匹配 可 能 是 更 加 合理 的 。 在 用 户 
可 以 说 出 一 个 文档 是 否 匹 配 (二 元 方式 ) 之 前 ， 如 果 能 够 说 出 对 于 某 
个 查询 而 言 ， 文 档 A 比 文档 B 更 优 ， 那 么 就 更 为 精确 了 。 例 如 ， 当 使 用 
最 喜欢 的 搜索 引擎 来 搜索 “elasticsearch” 的 时 候 ， 如 果 系 统 告诉 你 一 个 
特定 的 页 面 因为 包含 这 个 词 条 而 命中 ， 那 么 这 一 点 是 远 远 不 够 的 。 相 
反 地 ， 你 希望 结果 是 根据 最 佳 相 关 性 来 排序 的 。 


确定 文档 和 查询 有 多 么 相关 的 过 程 被 称 为 打分 (scoring) ° RE 
精确 地 理解 Elasticsearch 是 如 何 计算 文档 得 分 这 一 点 并 不 是 必需 的 ， 但 
是 对 于 如 何 使 用 Elasticsearch 而 言 ， 它 仍然 是 非常 有 帮助 的 。 


6.1.1 文档 打分 是 如 何 运 作 的 


Lucene (以 及 其 扩展 Elasticsearch) 的 打分 机 制 是 一 个 公式 ， 将 考 
量 的 文档 作为 输入 ， 使 用 不 同 的 因素 来 确定 该 文档 的 得 分 。 我 们 先 讨 
论 每 个 因素 ， 然 后 通过 这 个 公式 将 它们 综合 ， 来 更 好 地 解释 整体 的 得 
分 。 正 如 之 前 所 提 ， 我 们 希望 更 为 相关 的 文档 被 优先 返回 ， 在 Lucene 
和 Elasticsearch 中 这 种 相关 性 被 称 为 得 分 。 


在 开始 计算 得 分 之 时 ，Elasticsearch 使 用 了 被 搜索 词 条 的 频率 以 及 
它 有 多 常见 来 影响 得 分 。 一 个 简短 的 解释 是 ， 一 个 词 条 出 现在 某 个 文 
档 中 的 次 数 越 多 ， 它 就 越 相 关 。 但 是 ， 如 果 该 词 条 出 现在 不 同 的 文档 
的 次 数 越 多 ， 它 就 越 不 相关 。 这 一 点 被 称 为 TF-IDF (TF 是 词 频 ， 即 
term frequency) ，IDF 是 逆 文 档 频 率 (inverse document frequency) ， 
现在 我 们 将 深入 讨论 每 种 类 型 的 频率 。 


6.1.2 IH 


考虑 给 一 篇 文档 打分 的 首要 方式 ， 是 查看 一 个 词 条 在 文本 中 出 现 
的 次 数 。 举 个 例子 ， 如 果 在 用 户 的 区 域 搜 索 关 于 Elasticsearch 的 get- 
together， 用 户 希 望 频繁 所 及 Elasticsearch 的 分 组 个 优先 展示 出 来 。 考 
虑 图 6-1 中 的 文本 片段 。 


“We will discuss Elasticsearch at the next Big Data group.” 


“Tuesday the Elasticsearch team will gather to answer questions about Elasticsearch.” 


图 6-1 ” 词 频 是 一 个 词 条 在 文档 中 的 出 现 次 数 


第 一 个 句子 提 到 Elasticsearch 一 次 ， 而 第 二 个 句子 提 到 
Elasticsearch 两 次 ， 所 以 包含 第 二 句 话 的 文档 应 该 比 包含 第 一 句 话 的 文 
档 拥 有 更 高 的 得 分 。 如 果 我 们 要 按照 数量 来 讨论 ， 第 一 句 话 的 词 频 

(TF) 是 1， 而 第 二 句 话 的 词 频 将 是 2。 


6.1.3 ” 逆 文 档 频 率 


比 文 档 词 频 稍微 复杂 一 点 的 是 逆 文 档 频 率 (IDF) 。 这 个 听 上 去 
很 酷 炫 的 描述 意味 着 ， 如 果 一 个 分 词 (通常 是 单词 ， 但 不 一 定 是 ) 在 
索引 的 不 同文 档 中 出 现 越 多 的 次 数 ， 那 么 它 束 越 不 重要 。 使 用 几 个 例 
子 更 容易 解释 这 一 点 。 请 看 图 6-2 中 的 3 篇 文档 。 


“We use Elasticsearch to power the search for our website.” 


“The developers like Elasticsearch so far.” 


“The scoring of documents is calculated by the scoring formula.” 


6-2 MOC A ER ESO, TON EOP LS IK 
在 图 6-2 所 示 的 3 篇 文档 中 ， 请 注意 下 面 的 几 点 。 


。 词 条 “Elasticsearch” 的 文档 频率 是 2 〈 因 为 它 出 现在 两 篇 文档 
H) 。 文 档 频 率 的 逆 源 自得 分 乘 以 MDE， 这 里 DF 是 该 词 条 的 文档 


jee 这 就 意味 着 ， 由 于 词 条 拥有 更 高 的 文档 频率 ， 它 的 权重 就 
会 降低 。 

词 条 “the”* 的 文档 频率 是 3， 因 为 它 出 现在 所 有 的 3 篇 文档 中 。 请 注 
意 ， 尽管 "the" 在 最 后 一 篇 文档 中 出 现 了 两 次 ， 它 的 文档 频率 还 是 
3。 这 是 因为 ， 逆 文档 频率 只 检查 一 个 词 条 是 否 出 现在 某 文 档 中 ， 
而 不 检查 它 出 现 多 少 次 。 那 个 应 该 是 词 频 所 关心 的 事情 ! 


逆 文 档 频率 是 一 个 重要 的 因素 ， 用 于 平衡 词 条 的 词 频 。 举 个 例 
子 ， 考 虑 有 一 个 用 户 搜索 词 条 “the score”"， 单 词 the 几 乎 出 现在 每 个 普 
通 的 英语 文本 中 ， 如 琳 它 不 被 均衡 一 下 ， 单 词 the 的 频率 要 完全 淹没 单 
词 score 的 频率 。 逆 文档 频率 IDF 均 衡 了 the 这 种 常见 词 的 相关 性 影响 ， 
所 以 实际 的 相关 性 得 分 将 会 对 查询 的 词 条 有 一 个 更 准确 的 描述 。 


一 旦 词 频 TF 和 逆 文 档 频 率 IDF 计 算 完 成 ， 就 可 以 使 用 TF-IDF 公 式 
来 计算 文档 的 得 分 。 


6.1.4 Lucene 评 分 公式 


之 前 章 闻 讨论 的 Lucene 默 认 评分 公式 ， 被 称 为 TF-IDF， 古 基于 一 
个 词 条 的 词 频 和 逆 文 档 频 率 。 先 看 看 图 6-3 所 示 的 公式 ， 然 后 逐个 讨论 
AAFE 
MIRER o 


q 
SCOreguery, document = » VTFa* IDF 2 a * norm(d, field) * boost(t) 
t 


图 6-3 ”给 定 一 个 查询 和 文档 之 后 ，Lucene 的 评分 公式 


通过 人 类 的 语言 来 解释 这 个 公式 ， 我 们 会 这 样 说 :“ 给 定 查 询 q 和 
文档 dg， 其 得 分 是 查询 中 每 个 词 条 {的 得 分 总 和 。 而 每 个 词 条 的 得 分 是 
该 词 在 文档 d 中 的 词 频 的 平方 根 ， 乘 以 该 词 逆 文 档 频率 的 平方 科 ， 乘 以 
该 文档 字段 的 归 一 化 因子 ， 乘 以 该 词 的 提升 权重 。” 


谨 起 来 太 绕 口 了 ! 别 担心 ， 使 用 Elasticsearch 时 没有 必要 记 住 这 个 
公式 。 在 这 里 提供 这 个 公式 ， 只 是 让 用 户 理解 这 个 公式 是 如 何 计算 
的 。 核 心 部 分 是 理解 某 个 词 条 的 词 频 和 逆 文 档 频 率 是 如 何 影 啊 文档 的 
得 分 ， 以 及 它们 是 如 何在 整体 上 决定 Elasticsearch 索 引 中 一 篇 文档 的 得 


词 条 的 词 频 越 高 ， 得 分 越 高 ， 相 似 地 ， 索 引 中 词 条 越 罕 见 ， 逆 文 
档 频率 越 高 。 尽 管 TF-IDF 的 介绍 已 经 结束 了 ，Lucene 默 认 评分 功能 的 
介绍 却 并 没有 结束 。 还 有 两 点 没有 提 及 ， 调 和 因子 和 查询 标准 化 。 调 
和 因子 考虑 了 搜索 过 多 少 文档 以 及 发 现 了 多 少 词 条 。 查 询 标 准 化 是 试 
图 计 夏 局 者 询 的 结果 中 者 让 比 性 ”时 然 这 是 很 困难 的 ”而 上 实际 二 也 
不 应 该 比较 不 同 查询 所 产生 的 得 分 。 这 种 默认 的 打分 方法 是 TF-IDF 和 


癌 量 空间 模型 (vector space model) 的 结合 。 


如 果 用 户 对 此 很 感 兴趣 ， 推 荐 你 查阅 Lucene 文 档 中 
org.apache. lucene.search. 
similarities. TFIDFSimilarity Java 类 的 Javadoc。 


6.2 ”其 他 打分 方法 


尽管 前 面 所 述 的 TF-IDF 结 合 回 量 空间 模型 的 实用 评分 模式 ， 是 
Elasticsearch 和 Lucene 最 为 主流 的 评分 机 制 ， 但 是 这 并 不 意味 着 它 是 唯 
一 的 模型 。 从 现在 开始 ， 默 认 的 打分 模型 被 称 为 TF-IDF， 尽 管 它 是 指 
基于 TF-IDF 的 一 种 实用 打分 模型 。 其 他 的 模型 包括 下 面 这 些 : 


Okapi BM25; 

随机 性 分 歧 (Divergence from randomness) ， 即 DFR 相 似 度 ; 
基于 信息 的 (Information based) ， 即 IB 相 似 度 ; 

LM Dirichlet 相 似 度 ; 

LM Jelinek Mercer 相 似 度 。 


这 里 将 简短 地 讨论 最 流行 的 替代 选择 之 一 : BM25， 以 及 如 何 配 
置 Elasticsearch 来 使 用 它 。 当 讨论 打分 的 方法 时 ， 我 们 讨论 的 是 修改 
Elasticsearch 内 部 的 相似 度 模块 。 

在 讨论 TF-IDE 的 替换 打分 方法 之 前 ( 称 为 BM25， 一 种 基于 概率 
的 打分 框架 ) ， 先 讨论 下 如 何 配置 Elasticsearch 来 使 用 它 。 有 两 种 不 同 
的 方式 来 指定 某 个 字段 的 相似 度 。 第 一 种 是 修改 字段 映射 中 的 
Similarity 参数 ， 如 代码 清单 6-1 所 示 。 


代码 清单 6-1 ”修改 某 个 字段 映射 中 的 similarity 参 数 


{ 
"mappings": { 
"get-together": { 
"properties": { 
"title": { 
"type": "string", 
"Similarity": "BM25" <--- 这 个 字段 所 使 用 区 这 个 例子 中 是 


让 Elasticsearch 使 用 蔡 换 打分 的 第 二 种 配置 方式 是 ， 在 字段 的 映射 
中 指定 一 个 扩展 。 和 分 析 器 类 似 ， 相 似 度 定义 在 setting 之 中 ， 然 后 在 
映射 中 的 某 个 字段 可 以 通过 其 名 称 来 引用 这 个 相似 度 。 这 种 方法 允许 
用 户 为 某 个 相似 度 算法 来 配置 setting。 代 码 清单 6-2 展 示 了 一 个 例子 ， 
它 为 BM25 相 似 度 配置 了 高 级 的 setting， 并 且 让 映射 中 的 某 个 字段 使 用 
了 这 个 打分 算法 。 


代码 清单 6-2 为 BM25 配 置 高 级 的 setting 


curl -XPOST 'localhost:9200/myindex' -d'{ 


"settings": { 
"index": { 
"analysis": { 


ty 
"Similarity": { 
"my_custom_similarity": { =--- 定 制 化 相似 度 的 名 称 
"type": "BM25", <--- 相 似 度 的 类 型 ， 在 这 个 例子 中 是 BM25 
"ki": 1.2, <--- 配 置 此 例 中 的 相似 度 变 量 k1 和 b， 并 且 关 闭 discount- 


overlaps 
"b": 0.75, 
"discount_overlaps": false 


}, 
"mappings": { 
"mytype": { 


"properties": { 
"title": { 
"type": "string", 
"similarity": "my_custom_similarity" 一--- 为 这 个 字段 使 用 定制 


化 的 相似 度 
} 


此 外 ， 如 采用 户 决 定 总 是 使 用 某 种 特定 的 打分 方法 ， 那 么 可 以 全 
局 性 的 配置 它 ， 在 elasticsearch.yml 配 置 文 件 中 加 入 下 面 的 设置 : 


index.similarity.default.type: BM25 


KET! 现在 你 已 经 看 到 了 如 何 设置 一 个 玲 换 的 相似 度 ， 接 下 来 
探讨 一 下 这 个 替换 的 相似 度 方 案 ， 看 看 它 和 TF-IDF 有 什么 不 同 。 


Okapi BM25 


Okapi BM25 可 能 是 Lucene 中 第 二 流行 的 评分 方法 ， 仪 次 于 TF- 
IDF。 它 是 概率 性 的 相关 性 算法 ， 这 意味 着 分 数 可 以 认为 是 给 定 文档 
和 查询 匹配 的 概率 。BM25 以 能 够 更 好 地 人 处理 短 字 段 而 著称 ， 尽 管 如 
此 ， 总 是 应 该 进行 测试 ， 以 确保 对 于 用 户 的 数据 而 言 这 一 点 是 真 的 ! 
BM25 将 每 篇 文档 映射 为 一 组 数值 ， 它 们 对 应 的 是 字典 里 的 每 个 词 
条 ， 并 且 使 用 概率 模型 来 决定 文档 的 排名 。 


关于 BM25 的 完整 评分 公式 的 内 容 超 出 了 本 书 的 讨论 范围 。 
BM25 有 3 种 主要 的 设置 ， 即 KL、b 和 discount_over1laps 。 
。 k1 和 b 是 数值 的 设置 ， 用 于 调整 得 分 是 如 何 计算 的 。 


。k1 控制 对 于 得 分 而 言词 频 ( 词 条 出 现在 文档 里 的 频繁 程度 ， 或 者 
苹 之 前 草 廊 提 到 的 TF) 的 重要 性 。 


。 sea 介 于 0 到 1 之 间 的 数值 ， 它 控制 了 文档 篇 幅 对 于 得 分 的 影响 程 

。 默认 情况 下 ，k1 被 设置 为 1.2， 而 b 被 设置 为 0.75。 

e discount_over laps 的 设置 可 以 用 于 告知 Elasticsearch， 在 某 
个 字段 中 ， 多 个 分 词 出 现在 同一 个 位 置 ， 是 否 应 该 影响 长 度 的 标 
准 化 。 默 认 值 是 true 。 


guga 
a 


记 住 ， 如 果 你 确实 调整 了 这 些 设 置 ， 那 么 需要 确保 有 一 个 良好 的 测试 框架 ， 用 于 判 
mi 的 变化 。 如 果 没 有 方法 来 反复 评估 这 些 变化 ， 那 么 修改 相关 性 算法 的 设 
置 是 完全 没有 意义 的 。 仅 仅 靠 猜 测 是 不 够 的 ! 


现在 你 已 经 看 到 了 默认 的 TF-IDF 评 分 公式 ， 以 及 其 蔡 换 方案 ， 
J 。 接 下 来 讨论 如 何 使 用 更 为 精细 化 的 方式 ， 来 影响 文档 的 得 
, Abwtzeboosting ° 


6.3 boosting 


boosting 是 一 个 可 以 用 来 修改 文档 的 相关 性 的 程序 。boosting 有 两 
种 类 型 。 当 索引 或 者 查询 文档 的 时 候 ， 可 以 提升 一 篇 文档 的 得 分 。 在 
索引 期 间 修 改 的 文档 boosting 是 存储 在 索引 中 的 ， 修 改 boosting 值 唯一 
的 方法 是 重新 索引 这 篇 文档 。 鉴 于 此 ， 我 们 当然 建议 用 户 使 用 查询 期 
间 的 boosting， 因 为 这 样 更 为 灵活 ， 并 人 允许 用 户 改 变 主意 ， 在 不 重新 索 
引 数据 的 前 提 下 改变 字段 或 者 词 条 的 重要 性 。 


以 getrtogether 索 引 为 例 。 在 该 例子 中 ， 假 设 用 户 正 在 搜索 一 个 分 
组 ， 认 为 分 组 标题 的 匹配 比分 组 摘 述 的 匹配 更 为 重要 是 非常 有 意义 
的 。 考虑 一 下 Elasticsearch Berlin 分 组 。 标 题 只 包含 了 分 组 所 关心 的 最 
为 重要 的 信息 P 是 Berlin 地 区 的 Elasticsearch。 而 分 组 的 描述 ， 可 能 
包含 更 多 的 词 条 分 组 的 标题 应 该 比 描述 拥有 更 高 的 权重 。 为 了 达到 
这 个 目标 ， 用 户 将 会 fE H boosting ° 


在 开始 之 前 ， 值 得 一 提 的 是 boost 的 数值 并 不 是 精确 的 乘 数 。 这 是 
指 ， 在 计算 分 数 的 时 候 boost 数 值 是 被 标准 化 的 。 例 如 ， 如 果 为 每 个 单 
独 字 段 指定 了 10 的 boost， 那 么 最 终 标准 化 后 每 个 字段 会 获得 1 的 值 ， 


也 就 意味 着 没有 实施 任何 boost。 应 该 考虑 boost 的 相对 数值 ， 将 name 
字段 boost 3 倍 意味 着 name 字段 的 重要 性 大 概 是 其 他 字段 的 3 倍 。 


6.3.1 索引 期 间 的 boosting 


正如 之 前 所 提 到 的 ， 除 了 在 查询 期 间 boost 一 篇 文档 ， 你 还 可 以 在 
索引 期 间 来 boost 已 。 尽 管 我 们 并 不 推荐 这 种 类 型 的 boosting， 但 是 如 
你 即将 看 到 的 ， 在 某 些 场合 下 它 还 是 非常 有 用 的 。 所 以 下 面 将 讨论 如 
何 配置 它 。 

当 进 行 这 种 类 型 的 boosting 时 ， 需 要 使 用 boost 参数 来 设置 字段 
的 映射 。 例 如， 为 了 对 group 类 型 的 name 字段 进行 boost， 最 好 创建 
一 个 包含 代码 清单 6-3 所 示 的 映射 的 索引 。 


代码 清单 6-3 在 索引 期 间 ，boosting 在 group 类 型 中 的 name 字 段 


curl -XPUT 'localhost:9200/get-together' -d'{ 
"mappings": { 
"group": { 
"properties": { 
"name": { 
"boost": 2.0, <--- 索引 期 间 ，boosting name 字 段 的 值 


"type": "string" 


. rest of the mappings ... 


在 设置 该 索引 的 映射 后 ， 任 何 目 动 索引 的 文档 吏 拥 有 一 个 boost 
值 ， 运 用 于 name 字段 的 词 条 中 〈 存 储 在 Lucene 索 引 的 文章 中 ) 。 再 
次 强调 一 下 ， 请 记 住 这 个 boost 的 值 是 固定 的 (fixed) ， 也 就 是 说 如 果 
决定 修改 这 个 值 ， 你 必须 重新 索引 文档 。 


不 或 励 索引 期 间 boosting 的 另 一 个 原因 是 ，boost 的 值 是 以 低 精 度 
的 数值 存储 在 Lucene 的 内 部 索引 结构 中 。 只 有 一 个 字 和 用 于 存储 浮 点 


型 数值 ， 所 以 计算 文档 的 最 终 得 分 时 可 能 会 丢失 精度 。 


不 长 励 索 引 期 间 boosting 的 最 后 一 个 原因 是 ，boost 是 运用 于 一 个 
词 条 的 。 因 此 ， 在 被 boost 的 字段 中 如 果 匹 配 上 了 多 个 词 条 ， 职 意味 着 
多 次 的 boost， 将 会 进一步 增加 字段 的 权重 。 


由 于 索引 期 间 boosting 的 这 些 问 题 ， 最 好 是 在 进行 查询 的 时 候 进 行 
boost， 下 面 会 看 到 其 介绍 。 


6.3.2 ”查询 期 间 的 boosting 


当 进行 搜索 的 时 候 ， 有 几 种 方法 进行 boosting。 如 果 使 用 基本 的 
match、multi match、simple_query_string 或 
query_string 查询 ， 束 可 以 基于 每 个 词 条 或 者 每 个 字段 来 控制 
boost。 几 乎 所 有 的 Elasticsearch 查 询 类 型 都 支持 boosting。 如 果 这 个 还 
不 够 灵活 ， 那 么 可 以 通过 function_score 查询 ， 以 更 为 精细 的 方 
式 来 控制 boosting。 本 章 稍 后 将 探讨 这 个 内 容 。 


通过 match 查询 ， 用 户 可 以 使 用 额外 的 boost 参数 来 boost 查 
询 ， 如 代码 清单 6-4 所 示 。 对 查询 进行 boost 意 味 着 在 所 查询 的 配置 查询 
字段 中 ， 每 个 被 发 现 的 词 条 都 会 获得 boost 。 


代码 清单 6-4 在 查询 期 间 ， 使 用 match 碍 询 进 行 boosting 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'f{ 
"query": { 
"pool": { 
"should": [ 


"match": { 
"description": { 
"query": "elasticsearch big data", ~---- 查 询 期 间 ， 对 这 个 
match 查询 进行 boosting 
"boost": 2.5 


"match": { 


"name": { 
"query": "elasticsearch big data" <--- 对 于 第 二 个 match 
查询 ， 不 进行 任何 boosting 
} 


这 一 点 对 于 Elasticsearch 所 提供 的 其 他 查询 同样 适用 ， 如 term 查 
询 、prefix 查询 等 。 在 前 面 的 这 个 例子 中 ， 请 注意 boost 只 是 添加 
到 第 一 个 match 查询 。 现 在 对 于 最 终 的 得 分 而 言 ， 第 一 个 match 查 询 
比 第 二 个 match 查 询 拥 有 更 大 的 影响 力 。 当 使 用 boo1 或 
and/or/not 组 合 多 个 查询 时 ，boost 查 询 才 有 意义 。 


6.3.3 ”跨越 多 个 字段 的 查询 


对 于 跨越 多 个 字段 的 查询 ， 如 multi_match 查询 ， 也 可 以 使 用 
多 个 替换 的 语法 。 用 户 可 以 指定 整个 multi_match 的 boost， 和 刚刚 
看 到 的 使 用 boost 参 数 的 match 查询 类 似 ， 如 代码 清单 6-5 所 示 。 


代码 清单 6-5 ”为 整个 multi_ match 查 询 指定 boost 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'f{ 
"query": { 
"multi_match": { 
"query": "“elasticsearch big data", 
"fields": ["name", "description"], 


"boost": 2.5 


或 者 可 以 使 用 特殊 的 语法 ， 只 为 特定 的 字段 指定 一 个 boost。 通 过 
在 字段 名 称 后 面 添加 一 个 “和 符号 和 boost 的 值 ， 用 户 可 以 告诉 


Elasticsearch 只 对 那个 字段 进行 boost。 人 代码 清单 6-6 展 示 了 之 前 查询 的 
一 个 例子 ， 但 是 不 再 是 boost 整 个 查询 ， 而 只 是 boost 了 name 这 个 字 
Ey o 


代码 清单 6-6 ”只 对 name 字 段 进行 boost 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'f{ 
"query": { 
"multi_match": { 
"query": "elasticsearch big data", 


"fields": ["name43", "description"] <--- 使 用 ^3 后 级 ，name 字段 
被 boost 了 3 倍 


在 query_string 查询 中 ， 可 以 使 用 特殊 的 语法 来 boost 单 个 词 
条 ， 在 词 条 的 后 面 添加 ^ 字 符 和 boost 的 值 。 代 码 清 单 6-7 中 ， 样 例会 搜 


索 “elasticsearch” 和 “big data”， 而 “elasticsearch” 被 boost 了 3 倍 。 


代码 清单 6-7 在 query_string 查 询 中 针对 单个 的 词 条 进行 boost 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'{ 
"query": { 
"query_string": { 
"query": "elasticsearch43 AND \"big data\"" 。--- 使 用 ^3 后 绥 ， 
定 的 词 条 被 boost 了 3 FF 


正如 之 前 所 提 ， 请 记 住 在 boost 的 时 候 ， 无 论 是 字段 或 词 条 ， 都 是 
按照 相对 值 来 boost 的 ， 而 不 是 绝对 的 乘 以 乘 数 。 如 果 对 于 所 有 的 符 搜 
索 词 条 boost 了 同样 的 值 ， 那 么 就 好 像 没 有 boost 任 何 一 个 词 ， 因 为 
Lucene 会 标准 化 boost 的 值 。 记 住 ，boost 一 个 字段 4 倍 ， 不 是 意味 着 那 
人 所 以 如 果 分 数 不 是 按照 严格 的 乘法 ， 也 不 要 
HÒ 。 


由 于 在 查询 期 间 的 boosting 是 高 度 灵活 的 ， 多 试 试 它 吧 ! ABST 
在 你 的 数据 上 做 实验 ， 只 要 你 从 结果 中 获得 了 想 要 的 相关 性 葡 好 。 修 
改 boosting 非 常人 答 单 ， 职 是 在 发 送 给 Elasticsearch 的 查询 中 ， 调 整 相应 
的 数值 而 已 。 


6.4 ”使 用 “解释 ”来 理解 文档 是 如 何 被 评分 的 


在 深入 理解 文档 得 分 的 定制 之 前 ， 我 们 应 该 讨论 在 结果 的 基础 之 
上 ， 如 何 分 解 文 档 的 得 分 ， 以 及 Lucene 内 部 使 用 了 哪些 部 分 。 从 
Elasticsearch 的 角度 而 言 ， 这 些 对 于 理解 为 什么 一 篇 文档 比 另 一 篇 更 符 
合 某 个 查询 是 非常 有 帮助 的 。 


这 些 被 称 为 对 得 分 进行 解释 (explaining) ， 可 以 通过 指定 
explain=true 来 告诉 Elasticsearch 运 行 这 个 操作 。 既 可 以 在 发 送 请 
求 的 URL 里 设置 ， 也 可 以 在 请 求 的 主体 中 将 explain 设 置 为 true ° 
解释 为 什么 一 篇 文档 获得 特定 的 得 分 是 很 有 价值 的 ， 而 且 它 还 有 男 一 
个 用 处 : 解释 为 什么 一 篇 文档 无 法 和 某 个 查询 匹配 。 如 有 果 用 户 期 望 菜 
篇 文档 和 某 个 查询 匹配 ， 但 是 这 篇 文档 却 没有 在 结果 集合 中 返回 ， 那 
么 这 个 解释 就 非常 有 帮助 了 。 


在 讨论 这 些 之 前 ， 先 看 看 代码 清单 6-8 中 的 一 个 例子 ， 它 解释 了 一 


个 查询 的 结果 集合 。 


代码 清单 6-8 在 请 求 主 体 中 设置 explain 的 旗 标 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d' 
{ 


"query": { 
"match": { 
"description": "elasticsearch" 


} 


ty 
"explain": true ~--- 在 请 求 主体 中 设置 expLain 的 旗 标 
} 1 


从 代码 清单 6-8 中 可 以 看 到 ， 如 何 加 入 explain 参数 。 这 个 结果 
征 会 产生 更 加 元 长 的 输入 。 下 面 来 看 看 该 请 求 返 回 的 第 一 个 结果 : 


{ 


"hits" : { 
"total" : 9, 
"max_score" : 0.4809364, 
"hits" : [ { 
"_shard" : 0, 
" node" : "Kwc3QxdsT7m23T_gb413pw", 
"index" : "get-together", 
"type" : "group", 
"id" : M3", 
"score" : 0.4809364, 
"source": { 
"name": "Elasticsearch San Francisco", 
"organizer": "Mik", 
"description": "Elasticsearch group for ES users of all 


knowledge levels", 
"created_on": "2012-08-07", 
"tags": ["elasticsearch", "big data", "lucene", "open source"], 
"members": ["Lee", "Igor"], 
"location": "San Francisco, California, USA" 


ty 


"explanation" : {  «<---_explain 部 分 包含 了 对 于 文档 得 分 的 解释 
"value" : 0.4809364， ~--- 这 篇 文档 的 最 后 得 分 
"description" : "weight(description:elasticsearch in 1) 
[PerFieldSimilarity], result of:", <--- 分 值 的 可 读 性 解释 
"details" : [ { 
"value" : 0.4809364, 
"description" : "fieldWeight in 1, product of:", o--- 
复合 部 分 得 以 综合 ， 获 得 了 最 后 的 得 分 
"details" : [ { 


"value" : 1.0, 
"description" : "tf(freq=1.0), with freq of:", 
"details" : [ { 
"value" : 1.0, 
"description" : "termFreq=1.0" 
} ] 
} {í 
"value" : 1.5389965, 
"description" : "idf(docFreq=6, maxDocs=12)" 
} A 
"value" : 0.3125, 
"description" : "fieldNorm(doc=1)" 
3] 
bd 
} 


} ] 


es 


在 该 回复 中 ， 新 增 的 部 分 是 _explanation 键 ， 它 包含 了 得 分 不 
同 部 分 的 分 解 。 这 个 例子 在 description 摘 述 字段 中 搜索 “elasticsearch>”， 
而 词 条 “elasticsearch” 在 描述 中 出 现 了 一 次 ， 所 以 词 频 (TF) 就 是 1。 


类 似 地 ， 逆 文档 频率 (IDE) 解释 显示 了 “elasticsearch” 这 个 词 条 
在 该 索引 的 总 共 12 篇 文档 中 ， 出 现在 6 篇 文档 中 。 最终， 可 以 看 见 
Lucene 内 部 对 这 个 字段 的 标准 化 。 这 些 分 数 相 乘 起 来 ， 共 同 确定 了 最 
终 的 分 数 。 


1.0 x 1.5389965 x 0.3125 = 0.4809364. 


请 记 住 ， 这 只 是 单个 查询 词 条 的 简单 例子 ， 我 们 也 只 关注 了 单 篇 
文档 的 解释 。 当 使 用 更 为 复杂 的 查询 时 ， 解 释 有 可 能 十 分 见长 ， 而 且 
更 加 难以 理解 。 而 且 需 要 指出 的 是 ，explain 的 特性 会 给 
Elasticsearch 的 查询 增加 额外 的 性 能 开销 ， 所 以 请 确保 只 有 在 调试 查询 
时 才 使 用 它 ， 而 不 是 对 每 次 请 求 默 认 地 使 用 。 


解释 一 篇 文档 不 匹配 的 原因 


之 前 提 到 ，explain 还 有 男 一 个 用 处 。 束 像 用 户 可 以 获得 一 个 解 
释 、 了 人 解 对 于 特定 的 匹配 文档 分 数 是 如 何 计算 的 ， 还 可 以 使 用 特定 的 
explain API 接 口 来 分 析 为 什么 一 篇 文档 和 某 个 查询 不 匹配 。 


不 过 在 这 种 情况 下 ， 因 为 无 法 简单 地 添加 explain 参数 ， 所 以 还 
要 使 用 一 个 不 同 的 API 接 口 ， 如 代码 清单 6-9 所 示 。 


代码 清单 6-9 explain API 接 口 可 以 发 现 一 篇 文档 和 某 个 查询 无 法 匹配 的 原因 


curl -XPOST 'localhost:9200/get-together/group/4/_explain' -d' 


"query": { 


"match": { 
"description": "elasticsearch" 


} 
} 1 

" id" : "4", 

"_index": "get-together", 

"_type" : "group", 

"explanation": { <。--- 解 释 为 什么 这 篇 文档 和 查询 没有 匹配 成 功 
"description": "no matching term", 
"value": 0.0 


ty 
"matched": false ~--- 旗 标 显 示 该 文档 和 查询 是 否 匹 配 


在 这 个 例子 中 ， 由 于 词 条 “elasticsearch” 在 这 篇 文档 的 


description 字段 中 没有 出 现 ， 解 释 的 内 容 就 是 “没有 匹配 的 词 
条 ”。 如 采 知 道 文 档 的 ID， 则 可 以 使 用 API 接 口 来 获得 这 篇 文档 的 得 


有 了 这 个 工具 ， 融 可 以 确定 文档 是 如 何 被 评分 的 。 多 多 进行 实验 
吧 ， 不 要 害怕 使 用 本 书 中 的 这 些 工具 来 改变 分 值 。 


接 下 来 ， 在 深入 理解 分 数 调 校 之 前 ， 我 们 将 讨论 分 数 的 影响 ， 以 
及 在 发 现 打分 耗 时 过 长 时 ， 你 能 做 些 什 么 。 


使 用 查询 再 打分 来 减 小 评分 操作 的 性 能 影 
Hie 


BO ATT eT] OT FARR] ° FERS QUE HAAA 
中 ， 计 算 文档 的 得 分 只 需要 少量 的 开销 。 这 是 由 于 Lucene 团 队 已 经 深 
度 优化 了 TF-IDF， 使 其 变 得 非常 有 效率 。 
但 是 ， 在 下 列 情况 下 ， 打 分 可 能 会 变 成 资源 密集 型 的 操作 。 
H 


。 使 用 脚本 的 评分 ， 运行 了 一 个 脚本 来 计算 索引 中 每 篇 文档 的 得 


TJ 


长 


。 进 行 phrase 词 组 查询 ， 搜 索 在 一 定 距离 内 出 现 的 单词 ， 使 用 很 大 
的 slop 值 (在 4.2.1 节 已 经 讨论 过 ) 。 


在 这 些 情 况 下 ， 你 可 能 希望 在 成 二 上 万 的 文档 上 运行 时 ， 减 轻 打 
分 算法 所 产生 的 性 能 影响 。 


为 了 解决 这 个 问题 ，Elasticsearch 有 一 个 特性 称 为 再 打分 。 再 打分 
(rescoring) 意味 着 在 初始 的 查询 运行 后 ， 针 对 返回 的 结果 集合 进行 
第 二 轮 的 得 分 计算 ， 它 也 因此 而 得 名 。 这 意味 着 ， 对 于 可 能 非常 耗费 
性 能 的 脚本 查询 ， 可 以 先 使 用 更 为 经 济 的 match 匹配 查询 进行 搜索 ， 
然后 只 对 前 1,000 项 检索 到 的 命中 执行 该 脚本 查询 。 下 面 来 看 看 代码 清 
单 6-10 中 使 用 rescore 再 评分 的 一 个 例子 。 


代码 清单 6-10 ”使 用 rescore 特 性 ， 对 于 匹配 文档 的 子 集 重新 计算 得 分 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'{ 
"query": { 
"match": { 
"title": "elasticsearch" 。--- 在 所 有 文档 上 执行 的 初始 查询 
} 
ty 


"rescore": { 
"window_size": 20, =---- 运 行 再 评分 的 结果 数量 
"query": { 
"rescore_query": { 
"match": { --- 将 在 初始 查询 的 前 20 项 结果 上 运行 的 新 查 i 


"title": { 
"type": "phrase", 
"query": "elasticsearch hadoop", 


}, 
"query_weight": 0.8, =---- 初 始 查 询 得 分 的 权重 
"rescore_query_weight": 1.3 <。--- 再 评分 查询 得 分 的 权重 


这 个 例子 搜索 了 所 有 标题 中 全 有 “Elasticsearch” 关 键 词 的 文档 ， 然 
后 获取 前 20 项 结 宁 ， 然 后 对 它们 重新 计算 得 分 ， 它 使 用 了 高 slop 值 的 


phrase 查询 。 尽 管 高 slop 值 的 phrase 查询 是 很 耗费 性 能 的 ， 你 也 没 
有 必要 担心 ， 因 为 这 个 查询 只 会 在 前 20 篇 文 要 上 执行 ， 而 不 是 成 千 上 
万 可 能 相关 的 文档 。 用 户 可 以 使 用 query_weight 和 
rescore_query_weight 参数 来 权衡 不 同 查询 的 重要 性 ， 这 取决 于 
你 希望 最 终 的 得 分 多 少 是 由 初始 查询 决定 ， 多 少 是 由 再 评分 查询 决 
定 。 用 户 可 以 按 序 使 用 多 个 rescore 再 评分 查询 ， 每 个 查询 使 用 前 面 
的 结果 作为 输入 。 


6.6 ”使 用 function_score 来 定制 得 分 


最 终 ， 我 们 来 到 Elasticsearch 所 提供 的 最 酪 的 查询 之 一 ， 即 
function_score ° function_score 查询 允许 用 户 指定 任何 数量 
的 任意 函数 ， 让 它们 作用 于 匹配 了 初始 查询 的 文档 ， 修 改 其 得 分 ， 从 
而 达到 精细 化 控制 结果 相关 性 的 目的 。 


这 种 情况 下 ， 每 种 函数 (function) 是 一 个 JSON 小 片段 ， 以 某 种 
方式 来 影响 得 分 。 听 上 去 让 人 困惑 不 解 ? 那么 ， 在 这 个 章节 结束 前 我 
们 会 将 其 解释 清楚 。 这 里 以 function_score 查询 的 基本 结构 开始 
介绍 。 代 码 清单 6-11 是 一 个 尚未 进行 任何 额外 评分 的 例子 。 


代码 清单 6-11 ”function_score 查 询 的 基本 结构 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'{ 
"query": { 
"function_score": { 
"query": { 
"match": { 
"description": "elasticsearch" 


}, 
"functions": [] =--- 空 白 的 函数 列表 


足够 简单 ， 看 上 去 就 像 一 个 普通 的 match 匹 配 查 询 ， 被 封装 在 了 
一 个 function_score 查询 当中 。 它 有 了 一 个 新 的 键 : Functions 


。 它 目前 是 空 的 ， 不 过 不 用 担心 ， 很 快 就 要 向 这 个 数组 添加 内 容 了 。 
这 个 代码 清单 是 为 了 展示 这 个 查询 的 结果 ， 束 是 function_score 

函数 所 要 操作 的 文档 。 举 个 例子 ， 如 果 索 引 中 总 共有 30 篇 文档 ， 而 某 
个 match 查询 ， 它 要 在 description 字段 上 搜索 关键 

词 “elasticsearch”， 结 果 匹 瑟 上 其 中 的 25 篇 ， 那 么 数组 中 的 函数 将 会 应 
用 在 这 25 篇 文档 上 。 


function_score 查询 有 一 组 不 同 的 函数 ， 在 原 有 查询 的 基础 
上 ， 每 个 函数 可 以 使 用 另 一 个 过 滤器 元 素 。 随 着 后 面 的 章节 深入 每 个 
函数 的 细节 ， 用 户 将 看 到 一 些 这 样 的 例子 。 


6.6.1 weight 


weight Krew BAS, EMER TRL o WATE 
im, HHA boost 字段 按照 标准 化 来 会 增加 分 数 ， 而 weight 函数 却 
真 真切 切 地 将 得 分 乘 以 确定 的 数值 。 


前 面 的 例子 已 经 找到 了 所 有 在 description 字 段 中 包 
含 “elasticsearch” 的 文档 ， 而 代码 清单 6-12 将 boost 在 description 字 段 中 包 
含 “hadoop” 的 文档 。 


代码 清单 6-12 ”使 用 weight 了 范 数 来 boost 包 含 <hadoop” 的 文档 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'f{ 
"query": { 
"function_score": { 
"query": { 
"match": { 
"description": "elasticsearch" 


ty 


"functions": [ 


"weight": 1.5, 
"filter": {"term": {"description": "hadoop"}} <---t (HENRY 
将 description 中 含有 “hadoop” 关 键 词 的 文档 boost 71.5 
} 


] 
} 


ve 的 变化 是 ， 将 下 列 的 脚本 添加 到 functions 的 数组 


"weight": 1.5, 


"filter": {"term": {"description": "hadoop"}} 


这 意味 着 ， 在 description 字 段 中 匹配 了 “hadoop” 词 条 查询 的 文档 ， 
它们 的 分 数 将 被 乘 以 1.5。 


只 要 喜欢 ， 你 可 以 拥有 更 多 的 函数 。 例 如 ， 为 了 增加 提 
到 “logstash” 的 get- -together 分 组 之 分 数 ， 可 以 指定 两 个 不 同 的 weight 
函数 ， 如 代码 清单 6-13 所 示 。 


代码 清单 6-13 ”指定 两 个 weight 函 数 


curl -XPOST 'localhost:9200/get-together/_search?pretty' -d'{ 
"query": { 
"function_score": { 

"query": { 

"match": { 
"description": "elasticsearch" 

} 

ty 


"functions": [ 


"weight": 2, 
"filter": {"term": {"description": "hadoop"}} <--- 将 
description 中 含有 “hadoop” 关 键 词 的 文档 boost 了 2 
ty 


"weight": 3, 
"filter": {"term": {"description": "logstash"}} <---+% 
description 中 含有 “logstash” 关 键 词 的 文档 boost 了 3 
} 
] 


6.6.2 ”合并 得 分 


现在 讨论 一 下 ， 这 些 得 分 是 如 何 合并 的 。 当 谈 及 这 些 分 数 时 ， 有 
两 种 不 同 的 因素 需要 探讨 : 


© 从 每 个 单独 的 函数 而 来 的 得 分 是 如 何 合并 的 ， 这 被 称 为 
score_mode ° 

。 从 函数 而 来 的 得 分 是 如 何 同 原始 查询 〈 这 个 例子 中 ， 是 在 
description 字 段 搜索 “elasticsearch”) 得 分 相合 并 的 ， 这 被 称 为 
boost_mode ° 


第 一 个 因素 被 称 为 Score_mode 参数 ， 它 处 理 不 同 函数 得 分 是 如 
何 合并 的 。 在 之 前 cURL 的 请 求 中 有 两 个 函数 : 一 个 权重 是 2， 另 一 个 
权重 是 3。 用 户 可 以 设置 Score_mode 参数 为 multiply、sum、 
avg、first、max 和 min。 如 有 末 没 有 特别 指明 ， 每 个 函数 的 得 分 是 
相 乘 的 。 


如 果 指 定 了 first ， 只 会 考虑 第 一 个 拥有 匹配 过 滤器 的 函数 的 分 
数 。 举 例 来 说 ， 如 果 将 score_mode 设置 为 first ， 并 且 有 一 篇 文档 
的 描述 中 有 “hadoop” 和 "logstash” 关 键 词 ， 那 么 只 会 实施 值 为 2 的 boost 
因子 ， 因 为 这 是 第 一 个 匹配 文档 的 函数 。 


第 二 种 得 分 合并 的 设置 ， 被 称 为 boost_mode ， 它 控制 了 原始 查 
询 的 得 分 和 函数 得 分 是 如 何 合 并 的 。 如 果 没 有 指定 ， 新 的 得 分 是 初始 
查询 得 分 和 函数 得 分 相 乘 。 用 户 可 以 将 其 设置 为 Sum、avg、max、 
min 或 者 replace。 设 置 为 replace ， 意 味 着 原 有 的 查询 得 分 将 会 被 
函数 得 分 所 替换 。 


有 了 这 些 设 置 ， 你 就 可 以 学 习 下 一 个 function_score 函数 ， 
它 会 根据 字段 取 值 来 修改 得 分 。 我 们 将 涵盖 的 函数 将 包括 
field_value_factor、script_score 和 random_score ， 还 有 


3 种 衰减 功能 : linear ` gaussfilexp 。 这 里 将 从 
field_value_factor 函数 开始 。 


6.6.3 field value factor WW 


根据 其 他 的 查询 来 修改 得 分 是 非常 有 用 的 ， 但 是 许多 用 户 希 望 使 
用 文档 中 的 数据 来 影响 文档 的 得 分 。 在 这 个 例子 中 ， 你 可 能 想 使 用 事 
件 所 获得 的 评论 数量 来 增加 事件 的 得 分 。 在 function_score 查 询 
中 ， 使 用 field_value_factor 函数 将 使 得 这 一 点 成 为 可 能 。 

field_value_factor 函数 将 包含 数值 的 字段 的 名 称 作为 输 
入 ， 选 择 性 地 将 其 值 乘 以 常数 ， 然 后 最 终 对 其 运用 数学 函数 ， 如 取 数 
值 的 对 数 。 请 看 代码 清单 6-14 中 的 例子 。 


代码 清单 6-14 ”在 function_score 查 询 中 使 用 field_value_factor 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' - 
d'{ 
"query": { 
"function_score": { 
"query": { 
"match": { 
"description": "elasticsearch" 
} 
ty 


"functions": [ 


"field_value_factor": { 


"field": "reviews", =--- 用 作 数 值 的 数值 型 字段 
"factor": 2.5， =---- 评 论 字段 将 要 乘 以 的 因子 
"modifier": "In" =---- 可 选 的 修饰 符 ， 用 于 计算 得 分 


in(2.5 * doc['reviews'].value) 


对 于 reviews 字段 值 为 7 的 一 篇 文档 ， 得 分 将 是 : 
ln(2.5 * 7) -> ln(17.5) -> 2.86 


除了 ln 之 外 ， 还 有 其 他 的 修改 函数 : none (默认 的 ) 、1og、 
log1p ` log2p ` 1n1p ` l1n2p ` square ` sqrtĦreciprocal 。 
当 使 用 field_value_factor 的 时 候 ， 有 一 件 事情 需要 记 住 : 它 将 
所 有 用 户 指定 的 字段 值 加 载 到 内 存 中 ， 因 此 可 以 很 快 地 计算 出 得 分 。 
这 是 字段 数据 的 一 部 分 ， 这 个 将 在 第 6.10 节 讨论 。 在 此 之 前 ， 我 们 将 
讨论 为 一 个 函数 ， 它 可 以 通过 指定 一 个 定制 的 脚本 来 更 精细 化 地 控制 


得 分 
a 


6.6.4 ”脚本 


脚本 评分 可 以 让 用 户 完 全 地 控制 如 何 修改 得 分 。 用 户 可 以 在 脚本 
中 进行 任何 的 排序 。 


简短 地 回顾 一 下 ， 脚 本 是 以 Groovy 语 言 书写 的 ， 而 且 可 以 在 脚本 
中 使 用 _score 来 访问 文档 初始 的 得 分 。 用 户 可 以 使 用 
doc['fieldname' ] 来 访问 文档 某 个 字段 的 值 。 代 码 清单 6-15 展 示 
了 一 个 打分 的 例子 ， 它 使 用 了 稍微 复杂 一 点 的 脚本 。 


代码 清单 6-15 ”使 用 一 个 复杂 的 脚本 进行 评分 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' - 
d'{ 
"query": { 
"function_score": { 
"query": { 
"match": { 
"description": "elasticsearch" 


} 


了 
"functions": [ 


"script_score": { 
"script": "Math.log(doc['attendees'].values.size() * =- 
- -将 在 每 篇 文档 上 运行 的 脚本 ， 它 会 决定 得 分 的 数值 
myweight)", 
"params": { 
"myweight": 3 ~--- 变 量 myweight 将 会 被 请 求 中 的 参数 所 替代 


} 
} 


]; 
"boost_mode": "replace" ~---- 初 始 的 文档 得 分 将 会 被 脚本 产生 的 得 分 所 替 


这 个 例子 将 使 用 参与 者 (attendees) 列表 的 人 数 来 影响 得 分 ， 将 
其 和 权重 相 乘 ， 并 取 对 数 。 


脚本 是 非常 强大 的 ， 因 为 在 其 中 可 以 做 任何 喜欢 的 事情 。 但 古 请 


记 住 脚本 比 普通 的 评分 操作 要 慢 得 多 ， 原 因 征 对 于 每 篇 匹配 查询 的 文 
档 而 言 ， 它 们 必须 是 动态 执行 的 。 当 使 用 代码 消 单 6-15 中 的 参数 化 及 
本 时 ， 对 脚本 进行 缓存 将 有 助 于 性 能 的 提升 。 


6.6.5 ”随机 


Random_score 函数 给 予 用 户 为 文档 指定 随机 分 数 的 能 力 。 能 够 
随机 排列 文档 的 优势 在 于 ， 为 结果 的 首页 引入 了 一 定 的 变化 。 当 搜索 
get-together 的 时 候 ， 偶 尔 看 到 不 尽 相 同 的 前 列 结果 有 时 是 件 好 事 。 


用 户 也 可 以 选择 性 地 指定 种 子 (seed) ， 这 是 一 个 传送 给 查询 的 
数值 ， 它 将 用 于 产生 随机 数 。 这 一 点 可 以 让 用 户 以 随机 的 方式 来 排列 
文档 ， 但 是 使 用 同样 的 随机 种 和子 ， 再 次 执行 同样 的 请 求 时 ， 结 果 排 序 


将 总 是 一 样 的 。 


代码 清单 6-16 展 示 了 在 get-together 上 使 用 随机 排序 的 例子 。 


代码 清单 6-16 ”使 用 random_score 男 数 对 文档 进行 随机 排序 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' 
d'{ 
"query": { 
"function_score": { 
"query": { 
"match": { 
"description": "elasticsearch" 
} 
ty 


"functions": [ 


"random_score": { 
"seed": 1234 ~<---random_score 画 数 的 可 选 种 子 


如 有 果 这 个 看 上 去 没有 什么 用 ， 也 不 用 担心 。 一 旦 讨论 完了 不 同 的 
函数 ， 我 们 将 在 本 章 的 结尾 构造 一 个 例子 ， 将 所 有 这 些 函 数 综合 起 
来 。 FELL Z BI, 还 有 一 组 画 数 需要 讨论 ， 那 就 是 ， 彭城 函数 。 


6.6.6 “衰减 函数 


function_score 中 最 后 一 组 函数 是 衰减 国 数 。 它 们 人 允许 用 户 
根据 某 个 字段 ， ronal tree nee 得 分 。 在 某 些 情况 下 这 一 点 
是 非常 有 用 的 。 例 如 ， 用 户 和 希望 让 最 近 举 办 的 get- together 聚 会 有 更 高 
的 得 分 ， 随 着 get-together 举 办 的 时 间 越 来 越久 远 ， 分 数 将 会 逐渐 地 减 
少 。 另 一 个 例子 是 地 理 位 置 的 数据 ， BEF ee aE SCAT ANT Sait PH 
an (m 位 用 户 的 位 置 ) 的 结果 增加 得 分 ， 并 对 逐步 远离 该 点 的 结 

Ry ii ph 得 分 。 


一 共有 3 种 类 型 的 衰减 函数 ， 即 Linear、gauss 和 exp ° EPE 
减 函 数 遵循 同 种 语法 。 


{ 
"TYPE": { 
"origin": 
"offset": 


"scale": 
"decay": 

} 
} 


其 中 ，TYPE 可 以 是 3 种 衰减 函数 的 任意 一 种 类 型 。 每 种 类 型 对 应 于 一 
个 不 同形 状 的 曲线 ， 如 图 6-4、 图 6-5 和 图 6-6 所 示 。 


X 


图 6-4 ”线性 曲线 一 一 分 数 从 原点 (origin) 开始 以 同样 的 速率 减少 


图 6-5 ”高 斯 曲线 一 在 到 达 刻 度 点 (scale) 之 前 ， 分 数 缓慢 下 降 。 到 达 刻 度 (scale) 点 之 
后 ， 分 数 下 降 得 更 忆 


图 6-6 ”指数 曲线 一 一 从 原点 (origin) 开始 分 数 急 剧 下 降 


6.6.7 ”配置 选项 


配置 选项 定义 了 曲线 看 上 去 是 什么 样子 的 。 对 于 每 种 衰减 曲线 ， 


有 以 下 4 种 配置 选项 。 


origin 是 曲线 的 中 心 点 ， 在 这 里 用 户 希 望 分 数 是 最 高 的 。 在 地 
理 距离 的 例子 中 ，origin 很 可 能 是 一 位 用 户 现在 的 位 置 。 在 其 
他 的 情况 下 ， 原 点 可 以 是 日 期 或 者 是 数值 型 字段 。 

offset 是 分 数 开始 衰减 的 位 置 ， 和 原点 之 间 的 距离 。 在 我 们 的 
例子 中 ， 如 果 offset 设置 为 km ， 这 就 意味 着 距离 原点 1 公里 内 
的 点 ， 分 数 不 会 被 减少 。 位 移 默 认 的 值 是 0 ， 意 味 着 数值 一 旦 离 
开 原 点 的 值 ， 分 数 将 立即 开始 衰减 。 

scale 和 decay 这 两 个 选项 是 密切 合作 的 。 通 过 设置 它们 ， 可 以 
让 字段 值 为 指定 的 scale 值 时 ， 其 得 分 减少 到 指定 的 decay。 听 
LEAL RR? 将 其 想象 为 设 定 实际 的 数值 ， 束 更 容易 理解 了 了。 
如 果 将 scale 设 置 为 5km， 将 decay 设 置 为 0 .25 ， 那 么 这 就 是 
说 “在 距离 原点 5 公里 的 地 方 ， 分 数 应 该 是 原点 分 数 的 0.25 倍 。” 


代码 请 单 6-17 展 示 了 getrtogether 数 据 使 用 高 斯 衰减 图 数 的 一 个 例 


代码 清单 6-17 ”在 地 理 点 位 置 上 使 用 高 斯 衰减 函数 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' - 

d'{ 
"query": { 

"function_score": { 


"query": {"match_all": {}}, 
"functions": [ 


"gauss": { 
"geolocation": { 
"origin": "40.018528, -105.275806", ~<---# wR AM 


= 

"offset": "100m", ~--- 在 距离 原点 100 米 之 内 的 位 置 ， 分 数 保持 
不 变 

"scale": "2km", 。--- 距 离 原点 2 公里 的 地 方 ， 分 数 将 被 降低 一 半 

"decay": 0.5 

} 
} 
} 
] 
} 

}' 


让 我 们 看 看 这 个 代码 清单 中 发 生 了 什么 。 
。 使 用 了 match_all 查询 ， 返 回 了 所 有 结果 。 


。 使 用 高 斯 衰减 为 每 项 结果 打分 。 

。 起 始 的 原点 设置 为 Boulder，Colorado， 所 以 返回 的 结果 中 ， 在 
Boulder 的 聚会 得 分 最 高 ， 其 次 是 Denver (和 Boulder 很 近 的 一 个 城 
市 ) 等 。 越 往 后 聚会 离 原 点 位 置 越 远 。 


6.7 ”尝试 一 起 使 用 它们 吧 


之 前 我 们 承诺 要 展示 一 个 例子 ， 使 用 多 个 函数 ， 我 们 不 会 食 言 。 
下 面 展示 了 一 个 针对 所 有 getrtogether 活 动 的 查询 ， 其 中 : 


。 特定 的 词 条 权重 更 高 ; 
。 考虑 了 评论 数据 ; 


活动 参与 人 数 越 多 ， 排 名 越 高 ; 
靠近 某 个 地 理 位 置 的 活动 得 以 boost 加 权 。 


看 看 这 个 例子 会 更 有 意义 ， 请 看 代码 清单 6-18。 


代码 清单 6-18 将 各 种 function_score 函 数 结合 在 一 


(ae 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' - 


d'{ 


"query": { 
"function_score": { 
"query": {"match_all": {}}, ~--- 原 始 的 查询 匹配 了 所 有 的 文档 


"functions": [ 


"weight: 1.5, 
"filter": {"term": {"description": "hadoop"}} <--- 使 
函数 ， 将 描述 包含 ^hadoop” 关 键 词 的 文档 boost 提升 1.5 fF 


of 


权重 


}, 
{ 
"field_value_factor": { 
"Field": "reviews", ---- 有 更 多 评论 的 文档 排名 更 高 
"factor": 10.5, 
"modifier": "logip" 
} 
ty 
{ 


"sScript_score": { 


"script": "Math.log(doc[ 'attendees'].values.size() 
*myweight)", 


"params": { =--- 使 用 参加 人 数 来 影响 分 数 
"myweight": 3 
} 


ty 
{ 
"gauss": { 
"location_event.geolocation": { 
"origin": "40.018528, -105.275806", =---- 离 地 理 点 
(40.018528, -105.275806 ) 越 远 ， 分 数 衰减 越 多 
"offset": "100m", 
"scale": "2km", 
"decay": 0.5 
} 
} 
i } 
T 
"score_mode": "sum", =--- 将 每 个 函数 的 分 数 相 加 ， 生 成 函数 的 总 值 
"boost_mode": "replace" ~--- 使 用 函数 得 分 ， 来 替换 原 有 match_al1 查 询 


az 


FIX TF AS TAFIA ° 
(1) 由 于 使 用 了 match_all 查询 ， 用 户 匹配 了 索引 之 中 所 有 的 
活动 。 
(2) 使 用 weight 函数 ，boost 提 升 了 描述 中 包含 *hadoop” 关 键 词 
的 活动 。 


(3) 通过 field value factor 函数 ， 使 用 某 个 活动 的 评论 
数量 来 修改 得 分 。 


(4) 使 用 了 script_score ， 将 参与 者 的 数量 纳入 考虑 范围 。 
(5) 使 用 了 gauss 衰减 ， 对 于 离 原 点 越 来 越 远 的 点 进行 了 分 数 
的 逐步 衰减 。 


6.8 ”使 用 脚本 来 排序 


除了 使 用 脚本 来 修改 文档 的 得 分 ，Elasticsearch 还 允许 使 用 脚本 在 
文档 返回 前 对 其 进行 排序 。 当 用 户 需要 在 某 个 不 存在 的 文档 字段 上 排 
序 时 ， 这 一 点 非常 有 用 。 


例如 ， 想 象 你 正在 搜索 关于 “elasticsearch” 的 活动 ， 但 是 你 想 根据 
° 使 用 代码 清单 6-19 中 的 请 求 ， 可 以 轻松 实现 这 个 需 


代码 清单 6-19 ”使 用 脚本 对 文档 进行 排序 


curl -XPOST 'localhost:9200/get-together/event/_search?pretty' - 
d'{ 
"query": { 
"match": { 
"description": "elasticsearch" 


} 


了 
"sort": [ 


{ 


"script": { 
"script": "doc['attendees'].values.size()", 。--- 使 用 参与 者 字 
段 attendees 的 数值 作为 排序 的 值 
"type": "number", ~--- 该 排序 值 是 一 个 数值 类 型 
"order": "desc" <。-- -按照 参与 者 数量 进行 降序 排列 


"score" <--- 如 果 多 个 文档 的 参与 者 数量 相同 ， 使 用 _score 得 分 作为 第 二 排序 


你 应 该 留意 到 了 ， 对 于 每 个 匹配 的 文档 ， 将 获取 一 个 类 似 这 样 的 
字段 "sort": [5.0, 0.28856182] ，Elasticsearch 将 这 些 数值 用 于 
文档 排序 。 请 注意 ，5.0 是 一 个 数值 ， 这 是 因为 你 告诉 Elasticsearch， 脚 
本 的 输出 是 一 个 数值 (而 不 是 一 个 字符 串 ) 。 排 序数 组 的 第 二 个 数值 


年 原始 的 文档 得 分 ， 这 是 因为 在 多 个 文档 拥有 相同 数量 的 参与 考 时 ， 
你 将 原始 得 分 指定 为 第 二 个 排序 字段 。 


尽管 这 个 功能 是 很 强大 的 ， 使 用 function_score 查询 来 影响 
得 分 更 为 便捷 、 人 快速 。 而 且 ， 使 用 _score 来 排序 而 不 是 使 用 定制 的 脚 
本 来 排序 ， 也 是 更 为 便捷 和 快速 的 。 在 那 种 方式 下 ， 所 有 相关 性 的 变 
化 都 是 集中 在 单独 的 一 个 地 方 (查询 中 ) ， 而 不 是 在 排序 功能 


另 一 种 可 选 的 方案 是 ， 将 参与 者 的 数量 单独 作为 另 一 个 被 索引 文 
人 中 。 这 会 使 得 排序 或 基于 函数 的 得 分 修改 更 容易 实 
yl o 


接 下 来 讨论 一 下 和 脚本 有 些 关 系 ， 但 又 不 同 的 事物 : 字段 数据 。 


6.9 ”字段 数据 


当 你 希望 查询 一 个 词 条 ， 并 获取 匹配 的 文档 时 ， 倒 排 索引 是 非常 
棒 的 选择 。 但 是 ， 当 需要 在 某 个 字段 上 进行 排序 或 是 返回 一 些 聚 集 
时 ，Elasticsearch 需 要 快速 地 决 定 ， 对 于 每 个 匹配 的 文档 而 言 ， 哪 些 词 
条 是 用 于 排序 或 聚集 的 。 


对 于 这 些 任务 ， 倒 排 索引 不 能 完全 胜任 ， 这 时 字段 数据 就 会 很 有 
用 处 。 当 讨论 字段 数据 ”(field data) 的 时 候 ， 我 们 指 的 是 某 个 字段 的 
a 。Elasticsearch 将 这 些 值 加 载 到 内 存 中 。 如 果 有 下 面 这 样 的 
3 篇 文档 ; 


{"body": "quick brown fox"} 
{"body": "fox brown fox"} 


{"body": "slow turtle"} 


那么 ， 加 载 到 内 存 中 的 词 条 将 是 quick、brown、fox、slow 和 
turtle 。Elasticsearch 以 压缩 的 方式 ， 将 这 些 加 载 到 字段 数据 绥 存 ， 
接 下 来 看 看 这 个 缓存 。 


6.9.1 字段 数据 缓存 


字段 数据 缓存 (filed data cache) 是 一 种 内 存 型 的 缓存 ， 
Elasticsearch 在 几 种 场合 下 都 会 使 用 它 。 这 种 缓存 通常 (但 不 总 是 ) 是 
在 第 一 次 需要 使 用 时 被 构建 ， 然 后 被 保存 用 于 不 同 的 操作 。 如 果 有 很 
多 数据 ， 这 种 加 载 的 过 程 可 能 花费 很 长 时 间 和 很 多 的 CPU 资产， 使 得 
第 一 次 搜索 变 得 缓慢 。 


这 里 ， 预 热 器 (warmer) 束 会 有 用 武之 地 。 预 热 句 是 
Elasticsearch 目 动 运行 的 查询 ， 以 确保 内 部 的 缓存 被 填充 ， 使 得 查询 所 
用 数据 在 其 真正 使 用 之 前 被 预先 加 载 。 第 10 章 将 更 为 详细 地 讨论 预 热 
器 o 


Elasticsearch 需 要 这 种 缓存 ， 是 因为 许多 比较 和 分 析 的 操作 ， 都 会 处 理 大 量 的 数据 。 而 
在 合理 的 时 间 内 完成 这 些 操作 的 唯一 方式 ， 是 访问 内 存 里 的 数据 。Elasticsearch 最 大 限度 地 
降低 了 这 种 缓存 所 消耗 的 内 存 容 量 ， 但 它 仍然 是 Java 虚 拟 机 中 堆 > o 


ft 


空间 的 最 大 用 户 之 


你 不 仅 应 该 知道 缓存 需要 使 用 内 存 ， 还 应 该 知道 缓存 的 初始 加 载 
可 能 会 花费 不 少 的 时 间 。 你 可 能 注意 到 ， 当 进行 聚集 时 ， 第 一 次 的 聚 


集 需 要 2 一 3 秒 来 完成 ， 但 是 后 续 的 聚集 请 求 在 30 毫 秒 就 会 返回 。 


如 果 这 个 加 载 的 时 间 过 长 ， 变 成 了 一 个 需要 解决 的 问题 ， 可 以 在 
索引 阶段 进行 设置 ， 让 Elasticsearch 在 创建 新 的 可 搜索 户 段 
(segment) 之 时 ， 目 动 地 加 载 字段 数据 。 要 实现 这 一 点 ， 对 于 排序 或 
限 集 的 字段 ， 需 要 在 映射 中 将 其 fielddata.1loading 设 置 为 eager 
° 设置 为 eager 之 后 ，Elasticsearch 不 会 等 到 第 一 次 搜索 时 再 加 载 字段 
数据 ， 而 是 在 可 加 载 的 时 候 第 一 时 间 加 载 。 


例如 ， 为 了 尽早 地 加 载 某 个 get-together 分 组 〈 在 这 个 分 组 上 将 运 
行 一 个 term 聚集 ， 以 获取 前 10 个 标签 ) 的 verbatim 标签 ， 可 以 像 
代码 清单 6-20 这 样 来 设置 映射 。 


代码 清单 6-20 ”对 title 标 题字 上段 提前 加 载 字 段 数据 


curl -XPOST 'localhost:9200/get-together' -d ' 
{ 


"mappings": { 
"group": { 
"properties": { 
"title": { 
"type": "string", 
"fielddata": { <---Xtitle 标题 字段 进行 字段 数据 的 设置 ， 让 其 提前 


"loading": "eager" 


6.9.2 ”字段 数据 用 在 哪里 


如 前 所 述 ， 在 Elasticsearch 中 字段 数据 会 用 于 多 个 场景 ， 下 面 是 其 
中 一 些 。 


。 按照 某 个 字段 进行 排序 。 
。 在 某 个 字段 上 进行 聚集 。 
。 使 用 doc['fieldname'] 的 标注 ， 访 问 某 个 字段 的 值 。 


。 #:function_score 查询 中 ， 使 用 field_value_factor & 
数 。 

。 在 function_score 查询 中 ， 使 用 decay 误 减 函数 。 

。 使 用 fielddata_fields 从 字段 数据 来 获取 字 


。 缓存 父 子 文 档 关 系 的 ID。 


也 许 ， 最 为 常见 的 使 用 场景 是 根据 某 个 字段 进行 排序 或 聚集 。 
例 来 说 ， 如 果 你 按照 组 织 者 字段 organizer 来 排列 get- 
了 更 有 效 地 比较 和 排序 ， 该 字段 的 所 有 唯一 值 都 将 被 加 载 到 内 存 


除了 字段 上 的 排序 ， 还 有 字段 上 的 聚集 。 当 执行 一 个 term 聚集 
时 ，Elasticsearch 需 要 对 每 个 唯一 的 词 条 进行 计数 ， 所 以 那些 唯一 的 词 
条 和 它们 的 计数 必须 要 放 在 内 存 中 ， 从 而 生成 分 析 结 果 。 类 似 地 ， 当 
ile RRI, SEA AACE le ER, MTA 


不 用 担心 ， 正 如 我 所 说 ， 也 许 听 上 去 有 许多 数据 需要 加 载 (很 可 
能 确实 如 此 ) ， 但 Elasticsearch 会 尽 其 最 大 的 努力 ， 以 压缩 的 方式 来 加 
载 数据 。 即 便 如 此 ， 你 需要 知道 这 些 的 存在 ， 下 面 来 讨论 在 集群 中 如 
何 管理 字段 数据 。 


6.9.3 ”管理 字段 数据 


有 几 种 方式 来 管理 Elasticsearch 集 群 中 的 字段 数据 。 在 这 里 ， 当 我 
们 说 “管理 ”的 时 候 ， 是 指 什么 呢 ? 叫 ， 管 理 字段 数据 意味 着 避免 集群 
中 的 问题 ， 例 如 ，JVM 垃 圾 回收 花费 了 太 长 的 时 间 ， 或 者 加 载 使 用 了 
过 多 的 内 存 导 致 QutofMemoryError 错误 。 最 好 避免 缓存 来 回 更 
新 ， 这 样 不 用 经 党 地 将 数据 加 载 到 内 存 或 者 从 内 存 中 番 载 数据 。 


这 里 将 讨论 3 种 不 同 的 管理 方式 : 
。 限制 字段 数据 使 用 的 内 存量 ; 


。 使 用 字段 数据 的 断路 融 
。 使 用 文档 值 (doc value) 来 避免 内 存 的 使 用 。 


1. 限制 字段 数据 使 用 的 内 存量 


为 了 控制 数据 不 占用 过 多 的 内 存 空 间 ， 最 简单 的 方法 之 一 是 将 字 
段 数据 缓存 限制 在 一 个 固定 的 大 小 。 如 果 不 指定 这 个 值 ，Elasticsearch 
Fae ， 而 且 指 定时 间 过 后 数据 也 不 会 从 缓存 中 目 动 过 期 

效 。 

在 限制 字段 数据 缓存 的 时 候 ， 有 两 种 不 同 的 选项 : 可 以 通过 设置 
内 存 使 用 量 的 大 小 来 限制 ， 也 可 以 通过 设置 字段 数据 在 缓存 里 失效 的 
过 期 时 间 来 限制 。 

为 了 设置 这 些 选项 ， 在 elasticsearch.yml 文 件 中 指定 如 下 内 容 。 这 


设置 更 新 API 接 口 来 更 新 ， 因 此 修改 后 需要 重 
Aa ° 


indices.fielddata.cache.size: 400mb 


indices.fielddata.cache.expire: 25m 


但 是 在 修改 这 些 的 时 候 ， 设 置 
indices.fielddata.cache,.size 选 项 比 设置 expire 选项 更 有 
意义 。 为 什么 呢 ? 这 是 因为 当 字段 数据 加 载 到 缓存 之 时 ， 它 将 一 直 保 
留 在 内 存 中 直到 触及 使 用 量 的 上 限 ， 然 后 缓存 将 使 用 近期 最 少 使 用 的 
策略 (LRU) 来 淘汰 数据 。 通 过 设置 size 这 个 值 ， 一 旦 达到 限制 ， 你 
只 会 从 缓存 中 移 除 最 旧 的 数据 。 


当 设置 size 的 值 时 ， 也 可 以 使 用 一 个 相对 的 大 小 ， 而 不 是 绝对 的 
大 小 。 举 例 来 说 ， 可 以 指定 40% ， 让 字段 数据 缓存 使 用 JVM 扒 大 小 的 
40%， 而 不 是 指定 400mb 的 大 小 。 如 果 你 的 机 器 有 不 同 容 量 的 物理 内 
存 ， 但 是 你 又 想 统一 它们 的 elasticsearch.yml 配 置 文件 ， 避 人 免 为 每 台 机 
怖 设置 不 同 的 绝对 数量 ， 那 么 这 个 特性 残 非常 有 用 了 。 


2. 使 用 字段 数据 的 断路 器 


如 果 不 设置 缓存 的 大 小 ， 又 会 发 生 什 么 呢 ? 为 了 避免 将 过 多 的 数 
据 加 载 到 内 存 中 ，Elasticsearch 设 计 了 断路 器 (circuit breaker) 的 概 


念 ， 这 种 机 制 会 监控 加 载 到 内 存 中 的 数据 容量 ， 如 果 达 到 了 一 定 的 上 
限 ， 它 束 会 局 动 。 


对 于 字段 数据 而 言 ， 每 当 一 个 请 求 需要 加 载 字段 数据 的 时 候 (如 
根据 某 个 字段 排序 ， 断 路 器 评估 数据 加 载 导 致 的 内 存 使 用 量 ， 并 检 
碍 加 载 是 否 会 导致 其 超越 最 大 限制 。 如 采 超 限 了 ， 驶 会 抛 出 一 个 异 
常 ， 并 阻止 该 操作 的 进行 。 


这 样 处 理 有 儿 个 好 处 : 当 设 置 字段 数据 缓存 的 限制 时 ， 只 有 在 数 
据 加 载 到 内 存 之 后 我 们 才能 计算 字段 数据 的 大 小 ， 所 以 有 可 能 因为 加 
载 过 多 的 数据 而 导致 内 存 不 够 。 而 断路 郁 机 制 是 在 数据 加 载 之 前 预 们 
它 的 大 小 ， 这 样 可 以 避免 不 当 的 加 载 所 导致 的 系统 内 存 不 够 。 


这 种 方法 的 另 一 个 好 处 是 ， 当 节点 运行 的 时 候 ， 断 路 器 的 限制 可 
以 动态 调整 。 而 缓存 的 容量 必须 在 配置 文件 中 设置 ， 而 且 需 要 重启 节 
点 以 使 修改 生效 。 默 认 情 况 下 ， 断 路 器 的 配置 将 字段 数据 的 大 小 限制 
为 VM 记 和 机 堆 大 小 的 60% " 你 可 以 通过 发 送 一 个 如 下 的 请 求 ， 来 和 
行 配置 。 


curl -XPUT 'localhost:9200/_cluster/settings' 


"transient": { 
"indices. breaker.fielddata.limit": "350mb" 
} 
} 


而 且 ， 这 个 设置 可 以 文 持 像 350mb 这 样 的 绝对 数值 ， 也 可 以 文 持 
45% 这 种 百分比 。 一 旦 设置 了 这 些 ， 用 户 可 以 通过 节点 状态 (Nodes 
Stats) ” API 接口 来 查阅 断路 器 的 限制 ， 以 及 目前 断路 絮 跟 踪 了 多 少 内 
存 。 更 多 细节 将 在 第 11 章 讨论 。 


市， 默认 值 为 40%， 这 将 确保 它们 不 会 引起 0ut0fMemoryError 。 还 有 一 个 父 断 路 器 ， 

它 将 确保 字段 数据 和 请 求 的 断路 器 一 共 不 会 超过 堆 大 小 的 70%。 两 个 限制 都 可 以 通过 集群 
更 新 设置 (Cluster Update Setting) API 接 口 来 更 新 ， 分 别 是 
indices.breaker.request.limit#lindices.breaker.total.limit ° 


3. 使 用 文档 值 来 避免 内 存 的 使 用 


目前 为 止 ， 你 已 经 意识 到 了 应 该 使 用 断路 器 来 确保 大 量 的 请 求 不 
会 导致 节点 的 朋 涡 。 如 果 持 续 地 缺乏 字段 数据 空间 ， 你 应 该 使 用 RAM 
内 存 增加 JVM 堆 的 大 小 ， 或 者 限制 字段 数据 的 大 小 ， 容 忍 较 差 的 性 能 
表现 。 但 是 ， 如 果 持 续 缺 乏 字 有 段 数据 空间 ， 也 没有 足够 的 RAM 内 存 用 
于 增加 JVM 的 堆 ， 同 时 你 也 无 法 容忍 字段 数据 淘汰 导致 的 较 差 性 能 ， 
那么 又 该 怎么 办 呢 ? 这 里 文档 值 (doc values) 就 有 用 处 了 。 


文档 值 (doc values) 在 文件 被 索引 的 时 候 ， 获 取 了 将 要 加 载 到 内 
存 中 的 数据 ， 并 将 它们 和 普通 索引 数据 一 起 存储 到 磁盘 上 。 这 就 意味 
着 ,使 用 字段 数据 通常 会 使 得 内 存 不 够 ， 而 文档 值 却 可 以 从 磁 副 读 
取 。 这 样 做 有 几 个 优点 。 


。 性 能 平滑 地 下 降 默认 的 字段 数据 需要 一 次 性 加 载 到 JVM 的 堆 
之 中 ， 和 它 有 所 不 同 的 是 ， 文 档 值 是 从 磁盘 读 取 ， 和 其 他 索引 一 
样 。 如 果 操 作 系 统 无 法 将 所 有 的 东西 都 塞 进 内 存 ， 就 需要 更 多 的 
位 盘 询 道 ， 但 是 就 不 会 再 有 昂贵 的 加 载 和 淘汰 操作 、 产 生 
OutOfMemoryError 的 风险 以 及 断路 器 的 异常 (因为 断路 器 会 
预防 字段 数据 缓存 使 用 过 多 的 内 存 ) 。 

更 好 的 内 存 管理 一 一 当 使 用 的 时 候 ， 系 统 核心 会 将 文档 值 缓存 到 
内 存 中 ， 从 而 避免 了 和 堆 使 用 相关 的 垃圾 回收 成 本 。 

更 快 的 加 载 通过 文档 值 ， 在 索引 的 阶段 会 计算 非 倒 排 结构 ， 
所 以 即使 是 首次 运行 查询 ，Elasticsearch 没 有 必要 进行 动态 的 正 问 
化 。 由 于 正 向 化 过 程 已 经 执行 过 ， 初 始 的 请 求 能 够 更 快 地 运行 。 


本 章 所 讨论 的 所 有 内 容 ， 都 有 利 有 疯 。 文 档 值 也 有 一 些 缺 点 。 
索引 规模 一 一 将 所 有 的 文档 值 存储 在 磁 僵 上 ， 会 使 得 索引 
人 人 o 
稍微 变 慢 的 索引 过 程 —— ER | Ee TS GE, KER 
引 的 过 程 变 得 更 慢 。 

人 磁盘 比 内 存 读 取 速度 慢 ， 


使 用 字段 数据 的 请 求 ， 会 稍微 变 慢 
所 以 对 于 那些 经 常 使 用 预 加 载 字 段 数据 绥 存 的 请 求 ， 如 果 使 用 从 
倒 盘 读 取 的 文档 值 ， 那 么 请 求 就 会 稍稍 变 慢 。 这 些 请 求 包括 排 
Fe > GI (facet) MRE 。 


© 仅 对 非 分 析 字 段 有 效 一 一 在 版 本 1.4 中 ， 文 档 值 不 支持 分 析 后 的 字 
段 。 举 个 例子 ， 如 果 你 想 根 据 事件 标题 来 构建 天 键 词 的 云 ， 束 不 
能 利用 文档 值 。 文 档 值 可 以 用 于 数值 型 、 日 期 型 、 布 尔 型 、 二 进 
制 型 和 地 理 位 置 型 字段 ， 并 且 对 于 大 规模 的 非 分 析 型 数据 很 有 效 
果 ， 如 Elasticsearch 索 引 中 日 志 消 息 的 timestamp 字段 。 


好 消 恩 是 ， 可 以 混合 使 用 文档 值 的 字段 和 使 用 内 存 字 段 数据 缓存 
的 字段 。 所 以 ， 尽 管 为 活动 的 timestamp 字段 使 用 了 文档 值 ， 用 户 
仍然 可 以 在 内 存 中 保持 活动 的 title 字段 。 

那么 文档 值 是 如 何 使 用 的 呢 ? 由 于 它们 是 在 索引 阶段 写 入 人 磁 副 
的 ， 所 以 某 个 特定 字段 的 文档 值 配置 必须 放 在 映射 中 。 如 采 有 一 个 字 
符 串 型 的 字段 ， 它 不 是 分 析 型 的 ， 而 且 硕 望 在 该 字段 上 使 用 文档 值 ， 
那么 在 创建 索引 的 时 候 ， 可 以 如 代码 清单 6-21 所 示 配 置 映 册 。 


代码 清单 6-21 在 映射 中 ， 对 title 标 题字 段 使 用 doc-values 


curl -XPOST 'localhost:9200/myindex' -d' 


"mappings": { 
"document": { 
"properties": { 
"title": { 
"type": "string", 
"index": "not_analyzed", 
"doc_values": true =--- 配 置 title 标题 字段 ， 让 其 字段 数 


档 值 (doc_values) 的 特性 
} 


— EBACE SCRA, COANE, RI TR RMAF © 


[1] ”请 注意 代码 清单 6-19 的 索引 中 ， 只 有 参与 者 attendees 的 字段 ， 而 
没有 参与 者 数量 字段 。 其 数量 是 通过 doc['attendees'].values.size() 这 上 段 脚 
AIG © — ERE 


6.10 “小结 


现在 你 对 Elasticsearch 内 部 评分 机 制 以 及 文档 和 字段 数据 缓存 如 何 
交互 有 了 更 好 的 理解 ， 回 顾 一 下 本 章 所 讲述 的 内 容 。 


° Vel oR ESL AAR i ES PIKAA T ER 
Posie 

。 Elasticsearch 有 很 多 工具 来 定制 和 修改 得 分 。 

。 重 新 计算 部 分 文档 的 得 分 将 会 减 小 评分 机 制 的 影响 。 

。 使 用 解释 API 接 口 来 理解 文档 是 如 何 被 评分 的 。 

。 Function_score 查询 使 用 户 拥 有 了 对 文档 得 分 最 终极 的 控制 


权 。 
° a ， 将 有 助 于 用 户 理 解 Elasticsearch 集 群 是 如 何 使 


H NAER 
。 如 果 字 段 数据 缓存 消耗 了 过 多 的 内 存 ， 可 以 使 用 像 doc_values 
这 样 的 奉 换 方案 。 


第 7 章 将 继续 深入 ， 不 仅 可 以 获得 碍 询 的 结 末 ， 还 能 使 用 聚集 
(aggregation) 从 不 同 的 角度 来 探索 数据 。 


第 7 章 KRARRKARRS 


本 章 主要 内 容 


E — 网 
. HERE 


。 单个 和 多 桶 聚集 
。 BRR 


。 查询 、 过 滤 赤 和 聚集 之 间 的 关系 


到 目前 为 止 ， 我 们 专注 在 索引 和 搜索 的 使 用 上 : 你 有 很 多 的 文 
档 ， 而 且 用 户 想 发 现 和 某 些 关键 词 最 为 相关 的 匹配 。 在 越 来 越 多 的 场 
景 下 ， 用 户 不 再 对 具体 的 结果 感 兴 趣 。 相 反 ， 他 们 希望 获得 一 组 文档 
的 统计 数据 。 这 些 统计 数据 可 能 是 新 闻 的 热点 话题 、 不 同 产 品 的 膏 收 
趋势 、 网 站 的 唯一 访客 数量 等 。 


Elasticsearch 的 聚集 (aggregation) 特性 解决 了 这 个 问题 ， 它 加 载 
了 和 搜索 相 匹 配 的 文档 ， 并 且 完 成 了 各 种 的 计算 ， 例 如 ， 对 字符 串 字 
段 中 的 词 条 进行 计数 ， 或 计算 某 个 数值 型 字段 的 平均 值 。 为 了 理解 聚 
集 是 如 何 工 作 的 ， 将 之 前 章节 使 用 的 getrtogether 站 点 作为 一 个 例子 : 
一 位 进入 站 点 的 用 户 可 能 不 清楚 要 得 找 什么 样 的 分 组 。 为 了 让 这 位 用 
户 能 开始 探索 ， 可 以 让 界面 显示 getrtogether 站 点 的 现 有 分 组 中 ， 最 流 
行 的 标签 有 哪些 ， 如 图 7-1 所 示 。 


Tags 


Elasticsearc h Denver 
口 open source (7) 
elasticsearch (3) Enterprise search London get-together 


i t 
D big data (2) Elasticsearc h San Francisco 


图 7-1 ”使 用 聚集 的 例子 :gettogether 分 组 中 最 为 流行 的 标签 

这 些 标签 将 存储 在 单独 的 分 组 文档 字段 和 内。 用户 可 以 选择 一 个 标 
签 ， 将 只 包含 这 个 标签 的 文档 过 滤 出 来 。 这 使 得 用 户 更 容易 发 现 和 他 
们 兴趣 相关 的 分 组 。 


为 了 在 Elasticsearch 中 获得 流行 标签 的 列表 ， 最 好 使 用 聚集 功能 。 
在 这 个 具体 的 例子 中 ， 你 最 好 在 标签 字段 tags 上 使 用 terms RE, 
聚集 会 统计 字段 中 每 个 词 条 出 现 的 次 数 ， 并 返回 最 频繁 的 词 条 。 还 有 
很 多 其 他 类 型 的 聚集 可 供 使 用 ， 本 章 稍 后 会 进行 讨论 。 例 如 ， 你 可 以 
使 用 date_histogram 聚集 ， 来 显示 过 去 的 一 年 中 每 个 月 组 织 了 多 
少 活动 ， 还 可 以 使 用 avg 聚集 来 显示 每 次 活动 的 平均 参与 人 数 ， 甚 至 
可 以 使 用 significant_terms 聚集 来 发 现 哪 些 用 户 和 你 有 类 似 的 活 
动 偏好 。 


ASHI] (facet) WE 


如 果 你 使 用 过 Lucene、Solr 甚 至 是 Elasticsearch 一 段 时 间 ， 你 可 能 会 听 过 切面 。 切 面 和 
聚集 类 似 ， 原 因 是 它们 都 会 加 载 和 查询 术 匹配 的 文档 ， 并 且 为 了 返回 统计 数据 而 进行 计 
。 切面 在 版 本 1.x 中 还 是 支持 的 ， 但 是 已 经 被 弃 用 (deprecated) ， 在 版 本 2.0 中 将 被 移 


聚集 和 切面 最 主要 的 区 别 在 于 ， 你 无 法 在 Elasticsearch 中 符 套 多 种 切面 ， 这 限制 了 数据 
探索 的 更 多 可 能 性 。 举 个 例子 ， 如 果 有 一 个 博客 站 点 ， 你 可 以 使 用 terms 切面 来 发 现 本 年 
度 的 热门 话题 ， 或 者 使 用 date_histogram 切面 来 发 现 每 天 贴 出 多 少 文章 ， 但 是 你 无 法 
发 现 对 于 每 个 单独 的 话题 (至 少 在 一 个 请 求 中 无 法 完成 ) ， 每 天 的 帖子 数量 。 如 果 你 可 了 
在 terms 切面 下 面 幅 套 date_histogram 切面 ， 那 么 就 能 做 到 这 一 点 。 


聚集 的 诞生 就 是 用 于 打破 这 个 限制 的 ， 它 允许 你 对 文档 进行 更 为 深入 的 洞察 。 举 例 来 


说 ， 如 果 你 在 Elasticsearch 中 存储 在 线 商 店 的 日 志 ， 使 用 聚集 不 仅 可 以 发 现 最 畅销 的 商品 ， 
还 可 以 发 现 每 个 国家 最 畅销 的 商品 、 每 个 国家 每 种 商品 的 趋势 等 。 


本 章 将 讨论 所 有 聚集 的 共同 特点 : 如 何 运 行 它们 ， 以 及 之 前 章节 
所 学 的 查询 和 过 滤器 同 这 些 聚 集 色 有 何 和 关联。 然后， 我 们 将 深入 每 种 
案 集 独 有 的 特性 ， 最 后 将 展示 怎样 结合 不 同类 型 的 聚集 。 


聚集 分 为 两 个 主要 的 类 别 : 度量 型 和 桶 型 。 度 量 型 (metrics) R 
集 是 指 一 组 文档 的 统计 分 析 ， 可 以 得 到 诸如 最 小 值 、 最 大 值 、 标 准 差 
等 度量 值 。 例 如 ， 可 以 获得 在 线 商店 中 物品 的 平均 价格 ， 或 者 是 唯一 
访问 用 户 的 数量 。 


桶 (bucket) 聚集 将 匹配 的 文档 切 分 为 一 个 或 多 个 容器 ( 桶 ) ， 
然后 告诉 你 每 个 桶 里 的 文档 数量 。 图 7-1 中 的 terms RR, wel T we 
为 流行 的 标签 ， 它 就 是 为 每 个 标签 创建 一 个 文档 的 桶 ， 并 提供 了 每 个 
通 里 文档 的 数量 。 
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的 每 个 文档 桶 上 运行 。 用 户 可 以 参考 图 7-2 中 的 例子 。 


从 上 自 下 来 看 本 图 ， 可 以 看 到 如 果 使 用 terms 聚集 获取 最 为 流行 
的 分 组 标签 ， 你 同样 可 以 获得 每 个 标签 分 组 的 平均 成 员 数 量 。 还 可 以 
让 Elasticsearch 提 供 每 个 标签 每 年 创建 的 分 组 数量 。 


正如 你 所 想象 ， 可 以 通过 多 种 方式 ， 组 合 很 多 类 型 的 聚集 。 为 了 
更 好 地 理解 可 用 的 选项 ， 我 们 将 讲述 度量 型 和 桶 型 聚集 ， 然 后 讨论 如 
何 组 合 它 们 。 不 过 ， 还 是 先 来 看 看 各 种 类 型 罕 集 的 共同 点 有 哪些 ， 如 
何 构 建 聚 集 ， 以 及 它们 和 你 的 查询 是 如 何 关 联 的 。 


上 层 聚集 : 
流行 的 分 组 标签 


TRR: 
分 组 成 员 的 平均 数量 


TRR: 
每 年 创建 的 分 组 数量 
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7.1 理解 聚集 的 具体 结构 


所 有 的 聚集 ， 无 论 它们 是 什么 类 型 ， 都 遵从 以 下 的 规则 。 


。 使 用 查询 中 同样 的 JSON 请 求 来 定义 它们 ， 而 且 你 是 使 用 键 
aggregations 或 者 是 aggs 来 进行 标记 。 和 需要 给 每 个 聚集 起 一 
个 名 字 ， 指 定 它 的 类 型 以 及 和 该 类 型 相关 的 选项 。 

它们 运行 在 查询 的 结果 之 上 。 和 查询 不 匹配 的 文档 不 会 计算 在 
内 ， 除 非 你 使 用 global 聚集 将 不 匹配 的 文档 赛 括 其 中 。 本 章 稍 
后 会 介绍 global 这 种 桶 型 聚集 。 

可 以 进一步 过 滤 查 询 的 结果 ， 而 不 影响 聚集 。 为 了 达到 这 个 目 
的 ， 我 们 将 向 你 演示 如 何 使 用 后 过 滤器 。 例 如 ， 在 线 上 商店 搜索 
某 个 关键 词 的 时 候 ， 可 以 在 所 有 匹配 关键 词 的 物品 上 构建 统计 数 
据 ， 但 是 使 用 后 过 滤器 只 显示 有 货 的 那些 结果 。 


先 来 看 看 流行 的 terms 聚集 ， 在 本 章 的 介绍 部 分 你 已 经 看 到 了 它 
的 吴 影 。 使 用 场景 的 例子 为 get-together 站 点 的 现 有 分 组 获取 了 最 为 流 
行 的 主题 (标签 ;。 这 里 使 用 同样 的 terms 聚集 来 探索 任何 聚集 必须 
遵从 的 规则 。 


7.1.1 ”理解 案 集 请 求 的 结构 


代码 清单 7-1 将 运行 一 个 terms 聚集 ， 该 聚集 会 让 用 户 获得 get- 
together 分 组 里 最 频繁 的 标签 。terms 聚集 的 结构 和 其 他 聚集 的 结构 通 


为 了 使 本 章 的 代码 清单 能 够 运行 ， 需 要 索引 本 书 代码 样 例 中 的 样本 
| https:// github.com/dakrone/elasticsearch-in-action 找 到 。 
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代码 清单 7-1 使 用 terms 聚 集 来 获取 流行 的 标签 


curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 


"aggregations" : { ~«<---##aggregations 表明 ， 这 是 该 请 求 的 聚集 部 分 
"top_tags" : { ~--- 指 定 聚 集 的 名 字 
"terms" : { <--- 指 定 聚 集 类 型 的 为 词 条 
"field" : "tags.verbatim" <。--- 未 经 分 析 的 逐 字 字段 ， 将 “big data” 作 
为 一 个 词 条 ， 而 不 是 “big” 和 “data” 两 个 单独 的 词 条 
} 
### reply 
...] 
"hits" : { 


Nm 


"total" : 5, <--- 结 
进行 任何 查询 一 样 


列表 显示 在 这 里 ， 就 好 像 你 访问 了 _search 端点 而 没有 


"max_score" : 1.0, 
"hits" : [ { 
[... 
"name": "Denver Clojure", 
La 
"name": "Elasticsearch Denver", 
[...] 


ty 


"aggregations" : { =---- 聚 集结 果 从 这 里 开始 
"top_tags" : { =--- 所 指定 的 聚集 名 称 
"buckets" : [ { 
"key" : "big data", ~--- 每 个 唯一 的 词 条 都 是 桶 里 的 一 个 项 目 
"doc_count" : 3 <--- 对 于 每 个 词 条 ， 你 可 以 看 到 它 出 现 了 多 少 次 


ty 
"key" : "open source", 
"doc_count" : 3 
ty 
"key" : "denver", 
"doc_count" : 2 
[...] 
} 
} 


。 在 最 上 层 有 一 个 aggregations 的 键 ， 可 以 缩写 为 aggs 。 


。 在 下 面 一 层 ， 需 要 为 聚集 指定 一 个 名 字 。 可 以 在 请 求 的 回复 中 看 
到 这 个 名 字 。 在 同一 个 请 求 中 使 用 多 个 聚集 时 ， 这 一 点 非常 有 
用 ， 它 让 你 可 以 很 容易 地 理解 每 组 结果 的 含义 。 

最 后 ， 必 须要 将 聚集 的 类 型 指定 为 terms ， 并 配置 其 他 具体 的 选 
项 。 这 个 例子 将 设置 字段 fie1d 的 名 称 。 


和 之 前 攻 广 所 见 到 的 查询 一 样 ， 在 代码 清单 7-1 中 的 聚集 请 求 访问 
了 _search 端点 。 实 际 上 ， 你 获取 了 10 个 分 组 的 结果 。 这 是 因为 没有 
指定 任何 查询 ， 随 后 系统 执行 了 第 4 章 中 介绍 的 match_all Bis, Pr 
以 你 的 聚集 是 在 所 有 的 分 组 文 要 上 进行 的 。 如 果 执 行 另 一 个 不 同 的 查 
询 ， 那 么 聚集 将 会 在 另 一 个 不 同 的 结果 文档 集 上 运行 。 不 管 何 种 方 
式 ， 你 都 将 获得 10 个 这 样 的 分 组 结果 ， 因 为 默认 的 size 设 置 为 10 。 
正如 在 第 2 章 和 第 4 章 所 见 ， 可 以 通过 URI 或 者 查询 的 JSON 有 效 载 傈 对 
size 参数 进行 修改 。 


当 运 行 常规 的 搜索 时 ， 由 于 倒 排 索引 的 天 生 特 性 ， 请 求 执行 的 速度 很 快 : 查询 的 词 条 


数量 有 限 ，Elasticsearch 会 识别 包含 这 些 词 条 的 文档 并 返回 结果 。 而 另 一 方面 ， 对 于 和 查询 
相 匹配 的 每 篇 文 要 ， 聚 集 操 作 都 必须 处 理 其 中 的 词 条 。 这 就 需要 从 文档 ID 到 词 条 的 映射 关 
倒 排 索 引 和 此 相反 ， 将 词 条 映射 到 文档 。 


默认 情况 下 ，Elasticsearch 在 倒 排 索引 再 次 反 转 成 字段 数据 ， 在 6.10 节 有 所 介绍 。 字 段 
据 要 处 理 的 词 条 越 多 ， 它 就 所 使 用 的 内 存 也 越 多 。 这 就 是 为 什么 你 必须 确保 Elasticsearch 
足够 大 的 堆 空 间 ， 尤 其 是 在 大 量 文档 上 进行 聚集 的 时 候 ， 或 者 被 分 析 的 某 个 字段 在 每 篇 


Sy 


文档 中 都 有 多 个 词 条 的 时 候 。 对 于 not_analyzed 字段 ， 可 以 使 用 文档 值 在 索引 阶段 来 构 


建 并 存储 这 种 非 倒 排 的 数据 结构 。 更 多 关于 字段 数据 和 文档 值 的 细节 ， 请 参考 6.10 节 。 


7.1.2 ”运行 在 查询 结果 上 的 案 集 


在 整个 数据 集 上 计算 度量 值 只 是 聚集 可 能 的 使 用 场景 之 一 。 你 经 
常 需 要 为 某 个 查询 计算 度量 值 。 例 如 ， 如 果 搜 索 在 丹佛 (Denver) 的 
分 组 ， 你 可 能 只 想 看 看 那些 分 组 中 最 流行 的 标签 。 从 代码 清单 7-2 中 可 
以 看 出 ， 这 是 聚集 默认 的 行为 。 代 码 清单 7-1 中 隐 含 的 查询 是 
match_all ， 和 代码 清单 7-1 不 同 ， 代 码 清 单 7-2 在 location 字段 上 
查询 了 “Denver”"， 聚 集 就 只 会 针对 Denver 分 组 。 


代码 清单 7-2 ”获取 Denver 分 组 中 最 流行 的 标签 


curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"match": { 
"location": "Denver" ~-- -在 这 个 查询 中 查找 Denver 地 区 的 分 组 
} 
ty 
"aggregations" : { 
"top_tags" : { 
"terms" : { 
"field" : "tags.verbatim" 


} 


### reply 


o] 
"hits" : { 
"total" : 2, ~--- 结 果 比 代码 清单 7-1 的 结果 更 少 ， 原 因 是 只 查找 了 Denver 
地 区 的 分 组 


"max_score" : 1.44856, 
"hits" : [ { 
[... 
"name": "Denver Clojure", 
Psat 
"name": "Elasticsearch Denver", 
[...] 
ty 


"aggregations" : { 


"top_tags" : { 
"buckets" : [ { 


"key" : "denver", «<---A@Denver 地 区 的 分 组 才 会 进入 标签 的 计算 ， 
所 以 它们 聚集 的 结果 和 代码 清单 7-1 有 所 不 同 
"doc_count" : 2 
} { 
"key" : "big data", 
"doc_count" : 1 
[...] 


第 4 章 曾经 介绍 ， 你 可 以 使 用 查询 的 from 和 Size 参数 来 控制 结 
朱 的 分 页 。 这 些 参数 对 于 聚集 没有 影响 ， 原 因 和 是 索 集 总 是 在 所 有 和 得 
询 相 匹配 的 结果 上 执行 。 


如 果 你 想 更 大 程度 地 限制 查询 的 结果 ， 但 是 又 不 想 限 制 聚 集 ， 你 
可 以 使 用 后 过 滤 如 。 在 下 个 章 广 ， 我 们 将 讨论 后 过 滤器 ， 以 及 过 滤器 
MRR ZEE ERA ° 


7.1.3 Wiest AR 


第 4 章 已 经 表明 对 于 大 多 数 的 查询 类 型 ， 有 一 个 对 等 的 过 滤器 。 由 
于 过 滤器 并 不 计算 得 分 ， 而 且 可 以 被 缓存 ， 它 们 执行 起 来 比 对 应 的 查 
询 更 快 。 你 已 经 了 解 到 ， 应 该 将 过 滤器 封装 在 filtered Hig +, Wi 
像 这 样 : 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"filtered": { 
"filter": { 
"term": { 


"location": "denver" 
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上 执行 。 至 于 聚集 ， 它 们 也 只 会 在 与 filtered 得 询 相 匹配 的 文档 上 
运行 ， 如 图 7-3 所 示 。 


filtered 查 询 


W 


图 7-3 ftered 查 询 所 包装 的 过 滤器 首先 运行 ， 会 同时 限制 结果 集合 和 聚集 


“没有 什么 新 玩意 嘛 ”， 你 可 能 会 这 么 说 。“ 对 于 珍 集 而 言 ， 
filtered 查询 和 其 他 查询 的 表现 是 一 样 的 "， 你 可 能 是 对 的 。 但 是 ， 
DAA MAT ea: aces (post filter) ， 该 过 滤 
亏 征 在 查询 结 采 之 后 运行 ， 和 聚集 操作 相 独 立 。 下 面 的 请 求 将 返回 和 
前 面 过 滤 得 询 同样 的 结 末 集 。 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"post_filter": { 
"term": { 


"location": "denver" 


如 图 7-4 所 示 ， 后 过 滤器 和 filtered 查询 中 的 过 滤器 有 两 点 不 


。 性 能 后 过 滤器 是 在 查询 之 后 运行 ， 确 保 查询 在 所 有 文档 上 运 
行 ， 而 过 滤器 只 在 和 查询 匹配 的 文档 上 运行 。 整 体 的 请 求 通常 比 
对 等 的 filtered 查询 执行 更 慢 ， 因 为 fi1tered 查询 中 过 滤器 
是 先 运 行 的 ， 减 少 了 聚集 执行 时 处 理 的 文档 数量 。 

。 桶 集 处 理 的 文档 集合 一 “如 果 一 篇 文档 和 后 过 滤器 不 匹配 ， 它 仍 
然 会 被 聚集 操作 计算 在 内 。 


图 7-4 ”后 过 滤器 在 查询 之 后 运行 ， 并 不 影响 聚集 


既然 已 经 理解 了 查询 、 过 滤器 、 素 集 之 间 的 关系 ， 还 有 良 集 请 求 
的 整体 架构 ， 我 们 区 ® 可 以 深入 聚集 的 领域 ， 探 索 不 同 的 案 集 类 型 。 这 
里 将 从 度量 聚集 开始 ， 人 然后 是 桶 型 聚 集 ， 最 后 将 讨论 如 何 结合 这 些 聚 
集 ， 实 时 地 洞悉 你 的 数据 。 


7.2 BERR 

度量 聚集 从 不 同文 档 的 分 组 中 提取 统计 数据 ， 或 者 ， 如 我 们 将 在 
7.4 节 所 要 演 试 的 那样 ， 从 来 自 其 他 聚集 的 文档 桶 来 提取 统计 数据 。 

这 些 统计 数据 通常 来 自 数 值 型 字段 ， 如 最 小 或 者 平均 价格 。 用 户 
可 以 单独 获取 每 项 统计 数据 ， 或 者 也 可 以 使 用 stats 聚集 来 同时 获取 
它们 。 更 高 级 的 统计 数据 ， 如 平方 和 或 者 是 标准 差 ， 可 以 通过 
extended_stats 聚集 来 获取 。 

对 于 数值 型 和 非 数 值 型 字段 ， 可 以 使 用 cardinality 聚集 来 获 
得 唯一 数值 的 数量 ，7.2.3 节 将 会 讨论 这 些 © 


7.2.1 统计 数据 


让 我 们 通过 对 每 个 活动 参与 者 的 数量 统计 ， 来 开局 度量 聚集 之 


从 代码 样 例 中 ， 可 以 看 到 活动 文档 包含 一 组 参与 者 。 用 户 可 以 通 
过 脚本 ， 在 查询 的 时 候 来 计算 参与 者 数量 ， 如 代码 清单 7-3 所 示 。 第 3 
章 讨论 过 用 于 更 新 文档 的 脚本 。 通 第 来 说 ， 使 用 Elasticsearch 人 查询 可 以 


构建 一 个 script 字 段 ， 在 其 为 每 篇 文档 返回 一 个 数 
组 。 在 这 种 情况 下 ， 数 值 是 参与 者 数组 的 元 素数 量 。 


竺 查询 时 ， 脚 本 是 很 灵活 的 ， 但 是 你 必须 知道 关于 性 能 和 安全 性 的 警告 。 


信 管 多 数 聚 集 类 型 允许 使 用 脚本 ， 但 是 脚本 使 得 聚集 变 得 缓慢 ， 因 为 脚本 必须 在 每 篇 
文档 上 运行 。 为 了 避免 脚本 的 运行 ， 可 以 在 索引 阶段 进行 计算 。 在 这 种 情况 下 ， 可 以 抽取 
每 个 活动 的 参与 者 数量 ， 在 索引 前 将 其 加 入 单独 的 字段 。 第 10 章 将 探讨 更 多 关于 性 能 的 内 
X o 


在 大 多 Elasticsearch 部 署 中 ， P Ee a 
询 。 但 是 ， 如 果 人 允许 用 户 来 指定 任何 查询 ， 包 括 脚本 ， 某 些 人 可 能 会 利用 这 一 点 并 运行 亚 
意 的 代码 。 这 就 是 为 什么 在 某 些 Elasticsearch 的 版 本 中 ， 运 行 像 代 码 清单 7- 3 
本 〈 称 为 动态 脚本 ) 是 被 禁止 的 。 要 打开 这 种 脚本 ， 需 要 在 elasticsearch.yml 中 设置 
script.disable dynamic: false。 


at 
Iv 


— 


代码 清单 7-3 将 请 求 所 有 活动 的 参与 者 数量 统计 。 为 了 在 脚本 中 获 
取 参 与 者 数量 ， 你 将 使 用 doc['attendees'] .values 来 取得 参 
与 者 数组 。 对 其 加 上 length 属性 就 会 返回 参与 者 数量 。 


代码 清单 7-3 ”取得 活动 参与 者 数量 的 统计 数据 


URI=localhost:9200/get-together/event/_search 


curl "$URI?pretty&search_type=count 


" -d '{ =---- 当 只 关心 聚集 的 时 候 ， 不 应 该 请 求 任 何 结果 ， 而 只 是 它们 的 计数 
"aggregations": { 
"attendees_stats": { 
"stats": { 
"script": "doc['"'attendees'"'].values.length" =--- 生 成 参与 者 
数量 的 脚本 。 使 用 字段 而 不 是 脚本 来 访问 一 个 真实 的 字段 
} 


### reply 
[...] 
"aggregations" : { 
"attendees_stats" : { 

"count" : 15, 
"min" : 3.0, 
"max" : 5.0, 
"avg" : 3.8666666666666667, 


可 以 看 到 ， 对 于 每 个 活动 ， 获 取 了 参与 者 的 最 小 值 ， 还 有 最 大 
: ` 求 和 以 及 平均 值 ， 还 可 以 获知 这 些 统 计 值 是 从 多 少 文档 计算 而 来 

如 条 只 需要 这 些 统计 值 其 中 的 一 项 ， 可 以 单独 请 求 。 例 如 ， 可 以 
通过 代码 清单 7-4 中 的 avg 聚集 来 计算 每 个 活动 的 平均 参与 人 数 。 


代码 清单 7-4 取得 活动 参与 者 的 平均 数量 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_avg": { 
"avg" : { 
"script": "doc['"'attendees'"'].values.length" 


### reply 


"aggregations" : { 
"attendees_avg" : { 
"value" : 3.8666666666666667 


和 avg 聚集 类 似 ， 可 以 通过 min、max、sum 和 value_count 38 
集 来 取得 其 他 度量 值 ， 只 需要 将 代码 清单 7-4 中 的 avg 替换 为 需要 的 聚 
集 名 称 。 单 独 统 计 的 优势 在 于 ，Elasticsearch 不 会 将 时 间 耗 费 在 计算 用 
户 不 需要 的 度量 值 上 。 


7.2.2 ”高 级 统计 


除了 使 用 stats 聚集 来 收集 统计 数据 ， 还 可 以 通过 运行 
extended_stats 聚 集 来 获取 数值 字段 的 平方 值 、 方 差 和 标准 差 ， 
如 代码 清单 7-5 所 示 。 


代码 清单 7-5 取得 参与 者 数量 的 扩展 统计 数据 


URI=localhost:9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_extended_stats": { 
"extended_stats": { 
"script": "doc['"'attendees'"'].values.length" 


} 
i 
### reply 

"aggregations" : { 

"attendees_extended_stats" : { 
"count" : 15, 

"min" : 3.0, 

"max" : 5.0, 

"avg" : 3.8666666666666667, 

"sum" : 58.0, 

"sum_of_squares" : 230.0, 

"variance" : 0.38222222222222135, 
"std_deviation" : 0.6182412330330462 
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该 文档 集合 中 的 数值 计算 而 来 ， 所 以 总 是 具有 100% 的 准确 性 。 接 下 来 
看 看 一 些 使 用 近似 算法 的 统计 ， 它 们 通过 牺牲 一 定 程度 的 准确 性 来 换 
取 更 快 的 速度 和 更 少 的 内 存 消耗 。 


7.2.3 ”近似 统计 


某 些 统计 数据 可 以 通过 查看 文档 中 的 某 些 数值 ， 民 好 地 进行 计算 
一 一 尽管 不 是 100% 准 确 。 这 些 将 会 限制 执行 的 时 间 和 内 存 的 消耗 。 


这 里 看 看 如 何 从 Elasticsearch 获 得 两 种 这 样 的 统计 : 百 分 位 和 基 
数 。 百 分 位 (percentiles) 的 值 意 味 着 ， 可 以 发 现 所 有 值 中 的 x % 比 这 
个 值 低 ， 其 中 x 是 给 定 的 百分比 。 这 很 有 用 处 ， 例 如 ， 当 你 有 一 个 在 
线 商 店 时 ， 记 录 了 每 个 购物 车 的 价格 ， 并 且 想 看 看 大 多 数 购 物 车 在 哪 
个 价格 区 间 。 也 许 大 部 分 的 用 户 只 买 了 一 两 件 商品 ， 但 是 卖 得 最 多 的 
10% 用 户 购 买 了 非常 多 的 商品 ， 并 且 创 造 了 最 多 的 营 收 。 


基数 (cardinality) 是 某 个 字段 中 唯一 值 的 数量 。 这 很 有 用 处 ， 例 
如 ， 当 你 希望 获得 访问 站 点 的 唯一 JP 地 址 之 数量 时 。 


1. 百 分 位 


对 于 百 分 位 ， 再 次 考虑 下 每 项 活动 的 参与 人 数 ， 然 后 决定 你 认为 
正常 的 参与 者 的 最 大 数量 ， 以 及 你 认为 偏 高 的 数量 。 代 码 清 单 7-6 将 计 
算 80 百 分 位 和 99 百 分 位 。 你 会 认为 80 百 分 位 下 面 的 数值 是 正常 的 ，99 
百 分 位 下 面 的 数值 是 偏 高 的 ， 并 且 将 忽略 最 高 的 1%， 因 为 它们 实在 古 
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高 得 离谱 。 


为 了 达到 这 个 目标 ， 你 将 使 用 percentiles 聚集 ， 而 且 为 了 获 
取 具 体 的 百 分 位 ， 会 将 percents 数组 设置 为 80 和 99。 


代码 清单 7-6 ”获取 参与 者 数量 的 80 百 分 位 和 99 百 分 位 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_percentiles": { 
"percentiles" 


"script": "doc['"'attendees'"'].values.length", 
"percents" 


: [80, 99] 


"aggregations" : { 


"attendees_percentiles" : { 
"values" : { 
"80.0" : 4.0, =----80% 的 值 不 超过 4 
"99.0 5.0 ”~---99% 的 值 不 超过 5 
} 
} 
} 


对 于 代码 样 例 这 样 的 小 数据 集 ， 你 可 以 有 100% 的 准确 性 ， 但 十 生 
产 环 境 中 的 大 规模 数据 集 上 ， 可 能 这 束 不 会 发 生 了 。 使 用 默认 的 设 
置 ， 对 于 大 多 数据 集 和 大 多 百分比 ， 你 可 以 拥有 超过 99.9% 的 准确 
率 。 具 体 的 百分比 很 重要 ， 因 为 准确 性 在 第 50 个 百 分 位 是 最 差 的 ， 如 
果 你 趋 近 0 或 者 100 百 分 位 ， 准 确 性 会 越 来 越 蜗 。 


用 户 可 以 通过 增加 compression 参数 的 默认 值 100 ， 使 用 更 多 
的 内 存 来 提升 准确 性 。 内 存 消 耗 量 的 增加 和 压缩 参数 的 取 值 成 正比 例 
关系 ， 该 取 值 会 控制 在 近似 百 分 位 的 时 候 ， 有 多 少数 值 会 被 考虑 。 


还 有 一 个 percentile_ranks 聚集 ， 人 允许 你 进行 相反 的 事情 
T 旨 定 一 组 值 ， 获 得 相应 的 文档 百分比 ， 而 这 些 文档 拥有 你 所 指定 


% curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_percentile_ranks": { 
"percentile_ranks": { 


"script": "doc['"'attendees'"'].values.length", 
"values": [4, 5] 


对 于 基数 (cardinality) 而 言 ， 让 我 们 想象 一 下 你 期 望 获得 get- 
together 站 点 的 唯一 会 员 数 。 代 码 清单 7-7 展 示 了 如 何 使 用 
cardinality 聚集 来 实现 。 


代码 清单 7-7 ”使 用 cardinality 聚 集 来 获取 唯一 会 员 的 数量 


URI=localhost :9200/get -together/group/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"members _cardinality": { 
"cardinality": { 
"field": "members" 


"aggregations" : { 
"members_cardinality" : { 
"value" : 8 


Allpercentiles ##A(, cardinality 聚集 是 近似 的 。 为 
了 理解 这 种 近似 算法 的 好 处 ， 让 我 们 研究 下 替代 的 方案 。 在 版 本 1.1.0 
5|Acardinality 聚集 之 前 ， 为 了 获取 某 个 字段 的 基数 ， 和 常规 的 方 
法 是 运行 7.1 节 中 的 terms 聚集 。terms 聚集 获得 了 前 N 个 词 的 计 
数 ， 其 中 N 是 可 配置 的 size 参数。 如果 将 size 指定 得 足够 大 ， 束 可 
以 获得 所 有 的 唯一 词 条 。 对 它们 进行 计数 会 让 你 得 到 基数 。 


不 幸 的 是 ， 这 种 方法 只 对 基数 较 低 的 字段 和 数量 较 少 的 文档 奏 
效 。 和 否则 ， 使 用 巨大 的 Size 参数 来 运行 terms 聚集 将 需要 大 量 的 资 
源 。 


. 内存 一 为 了 计数 ， 所 有 的 唯一 词 条 需要 加 载 到 内 存 中 。 

+ CPU 一 所 有 的 词 条 需要 按 序 返 回 ， 默 认 情 况 下 排序 是 根据 词 条 
出 现 的 次 数 来 决定 的 ， 而 统计 次 数 需要 CPU 计算 。 

+ 网络 一 对 于 排序 后 的 唯一 词 条 的 大 型 数组 ， 必 须要 通过 网 络 将 
其 从 每 个 分 片 传送 到 接受 客户 端 请 求 的 节点 。 接 受 的 节点 还 需要 


ee 并 将 结果 传送 回 到 
Wing e 


这 就 是 为 什么 近似 算法 有 了 用 武之 地 。cardinality 字段 使 用 
了 一 个 称 为 HyperLogLog++ 的 算法 ， 将 希望 分 析 的 字段 值 进行 散 列 ， 
使 用 散 列 值 来 近似 基数 。 每 次 ， 该 算法 只 会 加 载 部 分 的 散 列 值 到 内 存 
中 ， 所 以 无 论 你 有 多 少 个 词 条 ， 内 存 的 使 用 量 只 会 是 一 个 常数 。 


3. 内 存 和 基数 


我 们 说 到 ，cardinality 聚集 的 内 存 使 用 量 是 一 个 常数 ， 但 是 
这 个 常数 会 有 多 大 呢 ? 可 以 通过 precision_threshol1d 参数 来 配 
置 它 。 靖 值 越 高 ， 结 果 越 精准 ， 但 是 消耗 的 内 存 越 多 。 如 果 使 用 
cardinality 聚集 ， 对 于 查询 命中 的 每 个 分 乒 ， 聚 集会 占用 大 约 
precision_threshold 乘 以 8 个 字 节 的 内 存 。 


cardinality 聚集 和 其 他 聚集 一 样 ， 可 以 在 桶 型 聚集 下 进行 奉 
& 。 在 那 种 情况 下 ， 内 存 的 使 用 量 将 进一步 乘 以 父 聚 集 生成 的 桶 数 


默认 的 precision_threshold 就 能 很 好 地 运作 ， 因 为 它 提供 了 内 存 
使 用 量 和 准确 率 之 间 一 个 良好 的 均衡 ， 并 且 它 会 根据 桶 的 数量 来 自我 调节 。 


表 7-1 展 示 了 每 个 度量 型 聚集 和 其 典型 用 例 的 概览。 在 此 之 后 ,我 
们 将 看 看 多 桶 型 到 集 的 选择 。 


表 7-1 度量 型 聚集 和 典型 的 用 例 


和 多 个 商店 销售 。 收 集 价格 的 统计 数据 : 


y +} 品 米 
和 品 销售 该 商品 ， 最 低 、 最 高 和 平均 价格 是 


单个 统计 ( min, max, | 同样 的 商品 志 
1 t i 
sum, avg, value — count | 最 低 价格 


extended stats 文档 包含 个 性 测试 也 ai ° x 组 被 测 者 的 统计 数 
= E, PU AANA 


站 原 的 访问 时 间 : ERENT Ze >, BH NY TA 
KE 27 


percentiles 


peas. ene 检查 一 下 是 否 符合 SLA 标 准 : 如 果 99% 的 请 求 都 要 在 
100 毫 秒 内 完成 ， 你 可 以 检查 实际 的 百分比 是 多 少 
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7.3 ”多 棚 型 聚集 


正如 你 在 前 面 的 章节 所 见 ， 度 量 型 的 聚集 是 获取 所 有 的 文档 ， 并 
且 生 成 一 个 或 多 个 描述 它们 的 数值 。 多 桶 型 的 聚集 是 将 文档 放 入 不 同 
的 桶 中 ， 玖 像 根 据 标 答对 文档 进行 分 组 一 样 。 然 后 ， 对 于 每 个 桶 ， 你 
ee eee 如 对 于 每 个 标签 ， 统 计 分 组 的 
a EA © 


到 目前 为 止 ， 都 是 在 所 有 匹配 查询 的 文档 上 运行 度量 型 察 集 。 用 
户 可 以 将 那些 文档 作为 一 个 大 桶 。 其 他 的 聚集 会 产生 这 样 的 桶 。 举 例 
来 说 ， 如 有 果 索 引 了 日 志 并 且 拥 有 国家 代码 的 字段 ， 用 户 可 以 在 这 个 字 
段 上 进行 terms 聚集 ， 为 每 个 国家 创建 一 个 桶 。 在 7.4 节 中 将 看 到 ， 聚 
集 还 可 以 峙 套 。 例 如 ， 一 个 cardinality 聚集 可 以 在 terms 聚集 所 
创建 的 桶 上 运行 ， 让 用 户 获知 每 个 国家 的 唯一 访客 的 数量 是 多 少 。 
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哪些 场景 下 。 


词 条 聚集 (terms aggregation) 会 让 用 户 得 知 文档 中 每 个 词 条 的 频 
率 。 你 已 经 看 过 几 次 terms 聚集 了 ， 它 返回 了 每 个 词 条 出 现 的 次 
数 。 要 和 弄 清楚 常见 的 博客 帖 或 者 是 流行 的 标签 这 样 的 信息 ， 词 条 
聚集 是 非常 有 用 的 。 还 有 significant_terms 聚集 ， 它 会 返回 
某 个 词 条 在 整个 索引 中 和 在 查询 结果 中 的 词 频 差异 。 这 有 助 于 我 
们 发 现 搜 索 场 景 中 有 意义 的 词 。 比 如 , “elasticsearch” 一 词 对 于 “ 搜 
RIP WARMA RN ° 
范围 聚集 (range aggregation) 根据 文档 落 入 哪些 数值 、 日 期 或 者 
IP 地 址 的 范围 来 创建 不 同 的 桶 。 当 分 析 有 固定 用 户 期 望 的 数据 
时 ， 这 个 很 有 用 处 。 例 如 ， 当 在 线 商 店 的 顾客 搜索 笔记 本 电脑 的 
时 候 ， 就 能 知道 最 主流 的 价格 区 间 是 什么 。 
HARES (histogram aggregation) ， 可 能 是 数值 ， 或 者 日 期 
型 ， 和 范围 聚集 类 似 。 但 是 它 无 须 定 义 每 个 范围 区 间 ， 而 是 需要 
定义 间距 值 。Elasticsearch 将 会 根据 这 个 间距 来 构建 多 个 桶 。 当 无 
法 得 知 用 户 希 望 看 到 什么 ， 这 个 就 很 有 价值 。 例 如 ， 你 可 以 绘制 
一 幅 图 ， 展 示 每 个 月 举办 多 少 场 活 动 。 
ESE (nested aggregation) ` RIKERE (reverse nested 
aggregation) 和 子 聚 集 (children aggregation) 人 允许 用 户 针对 文档 
的 关系 来 执行 聚集 。 在 第 8 章 谈 及 磐 套 和 父子 关系 的 时 候 ， 我 们 会 
讨论 这 些 聚 集 © 
地 理 距 离 聚 集 (geo distance aggregation) 和 地 理 散 列 格 聚 集 
(geohash grid aggregation) 允许 用 户 根 据 地 理 位 置 来 创建 桶 。 附 
录 A 将 讲述 这 些 关 注 地 理 位 置 搜索 的 聚集 。 


图 7-5 的 概述 展示 了 即将 讨论 的 各 种 多 桶 聚集 。 


显著 词 条 聚集 : 


词 条 聚集 : 相对 整体 而 言 ， 当 搜索 “搜索 引擎 ”时 ， 
最 为 频繁 的 标签 出 现 更 为 频繁 的 标签 
open source(10) -= elasticsearch 
big data(8) elasticsearch(7) 
5% solr 
more 
19% 
lucene 
more 
范围 聚集 : 日 期 直方 图 聚集 : 
按照 会 员 数 进行 的 分 组 每 个 月 创建 的 分 组 数量 
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Al7-5 ”多 桶 聚集 的 主要 类 型 


接 下 来 ， 让 我 们 深入 每 个 多 桶 型 聚集 ， 看 看 可 以 如 何 使 用 它们 。 


7.3.1 terms 聚集 


先 来 看 看 7.1 节 所 介绍 的 terms 聚集 ， 这 个 例子 展示 了 所 有 聚集 是 
如 何 运作 的 。 最 为 经 典 的 用 例 是 获取 X 中 最 频繁 (top frequent) 的 项 
目 ， 其 中 X 是 文档 中 的 某 个 字段 ， 如 用 户 的 名 称 、 标 签 或 是 分 类 。 由 
于 terms 府 集 统计 的 是 每 个 词 条 ， 而 不 是 整个 字段 值 ， 因 此 通常 需要 
在 一 个 非 分 析 型 的 字段 上 运行 这 种 聚集 。 原 因 是 ， 你 期 望 cbig data” 作 
为 词组 统计 ， 而 不 是 “big*" 单 独 统计 一 次 ，“data” 青 单独 统计 一 次 。 


用 户 可 以 使 用 terms 聚集 ， 从 分 析 型 字段 (如 某 个 活动 的 描述 ， 
中 抽取 最 为 频繁 的 词 条 。 还 可 以 使 用 这 种 信息 来 生成 一 个 单词 云 ， 如 
图 7-6 所 示 。 如 果 有 很 多 文档 ， 或 者 文档 包含 了 很 多 词 条 ， 那 么 只 需要 
确保 有 足够 的 内 存 来 加 载 所 有 的 字段 。 


introduction 


elasticsearch hadoop 
use-case 


talk 
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默认 情况 下 ， 词 条 的 顺序 是 由 词 频 来 决定 的 ， 并 且 降 序 排列 ， 这 
符合 所 有 最 频繁 X 的 使 用 场景 。 但 是 ， 也 可 以 将 词 条 按照 升序 排列 ， 
或 者 是 按照 其 他 的 标准 来 排列 ， 如 词 条 本 号 。 代 码 清单 7-8 展 示 了 如 何 
使 用 order 属性 ， 将 分 组 标签 按照 字母 顺序 排列 。 


代码 清单 7-8 根据 名 称 来 排列 标签 桶 


URI=localhost :9200/get-together/group/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 


"tags": { 
"terms": { 
"field": "tags.verbatim", 
"order": { 
" term" e "asc" 
=- - -排序 的 标准 (每 个 桶 的 词 条 ) 和 顺序 (asc 表示 升序 ) 
} 
} 
} 
aa 
### reply 
"aggregations" : { 
"tags" : { 
"buckets" : [ { 
"key" : "apache lucene", 
"doc_count" : 1 
} 1 
"key" : "big data", 


"doc_count" : 3 


}, 
"key" : "clojure", 
"doc _count" : 1 
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排列 词 条 。 举 个 例子 ， 在 代码 清单 7-8 中 的 tags 聚集 中 ， 可 以 使 用 平 


均 度 量 聚 集 获 取 每 个 标签 下 平均 的 组 员 数 量 。 而 且 可 以 通过 引用 度量 
聚集 的 名 称 ， 如 avg_members: desc (不 再 是 代码 清单 7-8 中 的 
_term: asc) ， 使 得 标签 按照 组 员 的 数量 来 排列 。 


1. 回复 中 包含 哪些 词 条 


默认 地 ，terms 聚集 将 会 返回 按 序 排列 的 前 10 个 词 条 。 但 是 ， 可 
以 通过 size 参数 来 修改 这 个 数量 。 将 size 设 置 为 0 ， 将 获得 全 部 的 
词 条 ， 但 是 对 于 基数 很 高 的 字段 ， 这 样 做 是 非常 危险 的 ， 因 为 返回 一 
a 而 且 它 还 可 能 阻塞 网 


为 了 拿 到 前 10 个 词 条 (或 者 是 通过 size 所 配置 的 数量 ) , 
Elasticsearch 必 须要 从 每 个 分 片 获 取 一 定数 量 的 词 条 (可 以 通过 
shard_size 来 配置 ) 并 且 将 这 些 结果 育 集 起 来 。 整 个 过 程 如 图 7-7 
所 示 ， 为 了 清楚 起 见 ，shard_size 和 size 都 设置 为 2。 


词 条 结果 “lucene: 7” RET, 
因为 每 个 分 片 只 返回 了 2 个 词 
条 (shard_size=2) 


词 条 聚集 : 标签 : 
field=tags big data: 9 
size=2 open source: 6 
shard_size=2 


标签 : 标签 : 
Open Source: 0 elasticsearch: 5 
big data: 5 big data: 4 


open source: 6 elasticsearch: 5 
big data: 5 big data: 4 
lucene: 4 lucene: 3 


图 7-7 ”有 的 时 候 ， 整 体 的 前 X 个 是 不 准确 的 ， 因 为 只 有 每 个 分 片上 只 有 前 X 词 条 被 返回 了 


这 种 机 制 意味 着 ， 对 于 某 些 未 能 在 单个 分 片上 名 列 前 茅 的 词 条 ， 
你 可 能 会 得 到 不 正确 的 计数 。 这 甚至 会 引起 某 些 词 条 丢失 ， 例 如 ， 图 
7-7 中 的 lucene 总 共 的 词 频 是 7 ， 由 于 它 在 每 个 分 片上 都 未 排 入 前 2 
名 ， 所 以 整体 标签 上 它 也 未 能 作为 前 2 名 返回 。 

通过 设置 shard_size ， 可 以 获得 更 准确 的 结果 ， 如 图 7-8 所 
示 。 但 是 这 样 做 使 得 聚集 操作 更 为 昂贵 (尤其 是 在 将 它们 嵌 套 起 来 
时 ) ， 因 为 内 存 中 需要 保存 更 多 的 桶 了 。 


为 了 知晓 结果 有 多 么 准确 ， 用 户 可 以 检查 缘 集 啊 应 头 部 的 值 。 


"tags" : { 
"doc_count_error_upper_bound" : 0, 


"sum_other_doc_count" : 6, 


将 shard_size 设 置 得 更 大 ， 
消耗 性 能 来 换取 更 高 的 准确 性 
/ 


词 条 聚集 : 标签 AC 
field=tags big data: 9 

. = i 

size=2 lucene: 7 

shard_size=3 


标签 : 
open source: 6 
big data: 5 
lucene: 4 


标签 : 
elasticsearch: 5 
big data: 4 
lucene: 3 


elasticsearch: 5 
big data: 4 
lucene: 3 


open source: 6 
big data: 5 
lucene: 4 


节点 1 


图 7-8 ”通过 增加 shard_size 的 值 ， 来 降低 不 准确 性 


第 一 个 数值 是 最 坏 情 况 下 ， 错 误 的 上 限 。 例 如 ， 如 采 每 个 分 片 返 
回 的 词 条 最 小 词 频 为 5 ， 那 么 分 片 中 出 现 4 次 的 词 条 可 能 就 会 被 遗漏 。 
如 有 果 词 条 应 该 出 现在 最 终 的 结果 中 ， 那 么 最 坏 情况 下 的 错误 为 4。 所 
有 分 片 的 这 些 数值 之 和 组 成 了 doc_count_error_upper_bound ° 


对 于 我 们 代码 的 样 例 ， 这 个 数值 永远 是 9 ， 因 为 我 们 只 有 一 个 分 片 
ee BI AS) rey AT FR A SE APY Se I AY res A DFR ee — BL 


第 二 个 数值 是 未 能 排名 午前 的 词 条 之 总 数量 。 


将 show_term_doc_count_error 设 置 为 true ， 就 可 以 获得 
每 个 词 条 的 doc_count_error_upper_bound 值 。 这 会 统计 每 个 词 
条 最 坏 情况 下 的 错误 : 例如 ， 如 果 一 个 分 片 返 回 了 “big data”, Waf LI 
知道 它 确切 的 值 。 但 是 ， 如 果 男 一 个 分 片 根本 没有 返回 “big data”, JB 
么 最 坏 的 情况 下 , “big data” 存 在 的 数量 束 刚 刚 比 最 后 一 个 返回 的 词 条 
低 。 对 于 分 片 没 有 返回 的 词 条 ， 将 它们 的 错误 数量 加 起 来 承 组 成 了 每 


个 词 条 的 doc_count_error_upper_bound 。 


在 准确 性 范畴 的 另 一 面 ， 可 以 考虑 低频 的 、 不 相关 的 词 条 ， 并 将 
它们 从 结果 集中 完全 排除 。 按 照 词 频 之 外 的 标准 来 排列 词 条 的 时 候 ， 
这 一 点 就 很 有 用 处 。 这 种 情况 下 ， 排 序 靠 前 的 词 条 中 会 出 现 低频 词 ， 
但 是 你 不 想 让 错 拼 这 样 的 不 相关 内 容 搞 坏 整 个 结果 。 为 此 ， 需 要 修改 
min_doc_count 设 置 的 默认 值 1。 如 果 想 在 分 片 层面 消除 低频 词 ， 


请 使 用 shard min doc count ° 


最 终 ， 可 以 在 结果 中 包含 特定 的 词 ， 或 者 将 特定 的 词 从 结果 中 易 
除 。 最 好 使 用 include 和 exclude 选项 ， 并 且 为 取 值 提供 正则 表达 
式 。 单 独 使 用 include 选项 ， 只 会 包含 匹配 某 个 模式 的 词 条 ; 单独 使 
用 exclude 选项 ， 只 会 包含 那些 不 匹配 的 词 条 。 同 时 使 用 两 者 ， 
exclude 会 有 优先 权 : 包含 的 词 条 会 匹配 ijnclude 选项 设置 的 模 
式 ， 但 是 不 会 匹配 exclude 选项 设置 的 模式 。 


代码 清单 7-9 展 示 了 如 何 只 返回 包含 “search” 的 标签 之 计数 器 。 
代码 清单 7-9 ”只 为 包含 “search” 的 词 条 创建 桶 


URI=localhost:9200/get-together/group/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"tags": { 
"terms": { 
"field": "tags.verbatim", 


"include": ".*search.*" 


} 
} 
}} 
### reply 
"aggregations" : { 
"tags" : { 
"buckets" : [ { 
"key" : "elasticsearch", 
"doc_count" : 2 
} i 
"key" : "enterprise search", 
"doc_count" : 1 
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聚集 和 一 个 cardinality 聚集 ，Elasticsearch 会 为 每 个 词 条 创建 一 个 桶 ， 计 算 每 个 桶 的 基 
数 ， 对 桶 进行 排序 ， 然 后 返回 排名 靠 前 的 X 个 结果 。 

多 数 情况 下 这 样 的 方式 可 以 运作 得 很 好 ， 但 是 如 果 有 很 多 桶 和 子 聚 集 ， 尤 其 是 子 聚 集 
也 包含 了 多 个 桶 ， 那 么 它 将 消耗 大 量 的 时 间 和 内 存 。 这 种 情况 下 ， 二 次 处 理 的 方式 会 更 
好 : 首先 创建 顶层 聚集 的 桶 ， 排 列 然后 缓存 排名 靠 前 的 X 个 结果 ， 然 后 只 对 前 X 个 进行 子 
聚集 的 计算 。 


可 以 通过 收集 模式 collect_mode 的 设置 来 控制 Elasticsearch 使 用 何 种 方式 。 默 认 的 
是 一 次 处 理 是 depth_first ， 而 两 次 处 理 是 breadth_first 。 


2. 显著 词 条 


如 果 想 看 看 在 目前 的 搜索 结果 中 ， 哪 些 词 条 比 通常 情况 有 更 高 的 
词 频 ，significant_ terms 聚集 就 非常 有 用 了 “。 下 面 来 看 看 get- 
together 分 组 的 例子 : 在 那些 分 组 中 ， 词 条 clojure 可 能 不 是 经 常 出 
现 ， 不 足以 计 入 结果 中 。 让 我 们 假设 在 1,000,000 个 词 条 中 这 个 词 出 现 
T10% (0.001%) 。 如 果 将 搜索 的 地 域 限制 为 Denver， 假 设 在 10,000 
个 词 条 中 dojure 出 现 了 7 次 (0.07%) 。 这 个 百分数 比 之 前 高 出 了 很 
多 ， 这 就 意味 着 Denver 相 比 其 他 地 方 ， 有 很 强 的 Clojure 社 区 。 其 他 的 
词 条 ， 如 programming 和 devops ， 即 使 有 着 高 得 多 的 绝对 词 频 ， 也 
不 会 影响 这 个 结论 。 


significant_terms 聚集 更 像 是 terms 聚集 ， 它 也 会 统计 词 

频 。 但 是 结果 桶 是 按照 某 个 分 数 来 排序 的 ， 该 分 数 代表 了 前 台 的 文档 

(0.07%) 和 背景 的 文档 (0.001%) 之 间 的 百分比 差异 。 前 台 文 档 是 
那些 与 查询 匹配 的 文档 ， 而 背景 文档 是 当前 索引 中 所 有 的 文档 。 


在 代码 清单 7-10 中 ， 你 将 发 现 哪些 get-together 站 点 的 用 户 ， 和 Lee 
有 着 类 似 的 活动 品味 。 为 了 实现 这 一 点 ， 将 查询 Lee 所 参加 的 活动 〈 前 
台 文 档 ) ， 然 后 使 用 significant_terms 聚集 来 看 看 和 整体 所 参加 
的 活动 (背景 文档 ) 相 比 ， 这 些 活动 (前 台 文 档 ) 中 哪些 参与 者 出 现 
得 更 频繁 。 


代码 清单 7-10 ”发 现 参加 活动 和 Lee 类 似 的 参与 者 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 


"query": { 
"match": { 
"attendees": "lee" “~--- 前 台 文 档 是 Lee 所 参加 的 活动 
} 
ty 


"aggregations": { 
"significant_attendees": { 
"significant_terms": { 

"field": "attendees", -~--- 你 需要 在 这 些 活动 中 ， 相 对 于 整体 而 言 出 
现 更 频繁 的 参与 者 
"min_doc_count": 2, ~---- 只 考虑 至 少 参 加 2 个 活动 的 参与 者 
"exclude": "lee" 。--- 由 于 Lee 和 他 自己 的 品味 相同 ， 因 此 需 将 他 从 分 
析 后 的 词 条 中 排除 


} 
} 
em 
### reply 
"aggregations" : { 
"significant_attendees" : { 


"doc_count" : 5, ~---- 所 有 Lee 参与 的 活动 数量 是 5 
"buckets" : [ { 
"key" : "greg", <---Greg 有 类 似 的 品味 : 他 参与 了 3 个 活动 ， 全 部 
都 是 和 Lee 一 起 参与 
"doc_count" : 3, 
"score" : 1.7999999999999998, 
"bg_count" : 3 


"key" : "mike", «---Mike 排 第 二 ， 参 与 了 两 个 活动 ， 全 部 都 是 和 


Lee 一 起 参与 
"doc_count" : 2, 
"score" : 1.2000000000000002, 
"bg _count" : 2 


} {í 
"key" : "daniel", <---Daniel 排 最 后 ， 他 参与 了 3 个 活动 ， 但 是 
只 有 两 个 是 和 Lee 一 起 参与 的 
"doc_count" : 2 


"score" : 0.6666666666666667, 
"bg count" : 3 


正如 你 所 想 ， 代 码 清单 7-10 中 的 significant_terms 聚集 和 普 
通 terms 聚集 有 同样 的 size、shard_size、min _ doc _count、 
shard_min_doc_count、include 和 exclude 选项 ， 让 用 户 可 以 
控制 所 返回 的 词 条 。 此 外 ， 它 还 允许 修改 背景 文档 集合 ， 不 再 使 用 索 
引 的 全 部 文档 ， 而 是 使 用 和 background_filter 参数 所 定义 的 过 滤 
器 相 匹 配 的 文档 。 例 如 ， 你 可 能 知道 Lee 只 参加 技术 主题 的 活动 ， 所 以 
可 以 过 小 那些 和 他 不 相关 的 活动 ， 确 保 这 些 不 会 统计 在 内 。 


terms 和 significant_terms 聚集 这 两 者 在 字符 串 类 型 的 字 
段 上 都 可 以 很 好 地 运行 。 对 于 数值 型 字段 ，range 和 histogram 3s 
集会 更 相关 ， 让 我 们 接 下 来 讨论 。 


7.3.2 rangeğR 


terms 聚集 经 常用 于 字符 串 ， 但 是 也 可 以 用 于 数值 型 的 值 。 当 某 
个 字段 的 基数 很 低 的 时 候 ， 这 一 点 吏 很 有 用 处 了 ， 例 如 ， 要 统计 有 多 
少 的 笔记 本 电脑 是 2 年 质保 ， 而 有 多 少 是 3 年 质保 ， 等 等 。 


对 于 高 基数 的 字段 而 言 ， 如 年 龄 和 价格 ， 你 很 可 能 期 望 使 用 范围 
来 统计 。 例 如 ， 你 可 能 想 知 道 用 户 中 多 少 人 是 18~39 多 ， 多 少 人 是 40 
~-60 罗 ， 等 等 ， 此 时 仍然 可 以 使 用 terms 聚集 来 实现 ， 但 是 会 非常 烦 
AIR: 在 应 用 程序 中 ， 不 得 不 为 18 灾 、19 岁 一 直到 39 岁 添加 计数 
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像 本 章 稍 后 介绍 的 那样 ， 情 况 会 变 得 更 加 复杂 。 


为 了 解决 数值 型 取 值 的 这 个 问题 ， 可 以 使 用 range 聚集 。 正 如 其 
名 ， 你 设 定 布 望 的 数值 范围 ， 然 后 范围 聚集 将 会 统计 其 值 属于 这 个 艺 
围棋 的 文档 。 用户 可 以 使 用 这 些 计数 韦 将 数据 以 图 形 化 的 方式 来 表 
达 。 例 如 ， 图 7-9 所 示 的 饼 图 。 


40~60 岁 


18~39 岁 


图 7-9 range 至 集 统 计 了 每 个 范围 内 的 文档 。 对 于 饼 图 来 说 非常 恰当 


第 3 章 中 曾 提 到 过 ， 在 Elasticsearch 中 日 期 型 字符 串 被 存储 为 long 
， 用 坚 秒 级 的 UNIX 时 间 表 示 。 对 应 于 日 期 疙 围 ， 有 一 个 range 聚集 
的 变 体 ， 称 为 date_range 聚集 。 


1. ranges 


回 到 get-together 站 点 用 例 ， 然 后 按照 参与 者 数量 来 做 个 活动 的 分 
解 。 用 户 将 给 聚集 提供 一 组 范围 的 数组 ， 使 用 range RRREH o r 
要 记 住 的 是 ， 桶 是 包含 了 范围 的 最 小 值 from) ,但 是 不 包含 最 
大 值 〈 键 to ) 。 在 代码 清单 7-11 中 将 看 到 3 个 分 组 : 


。 少 于 4 个 会 员 的 活动 。 7 
。 至 少 4 个 会 员 但 是 少 于 6 个 会 员 的 活动 。 


A 
Zs 
。 至 少 6 个 会 员 的 活动 。 


范围 不 必 是 连续 的 ， 它 们 
里 ， 但 是 你 不 一 定 要 
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那么 做 。 


代码 济 


EE 


7-11 ”使 用 range 聚 集 ， 根 据 参 与 者 数量 来 划分 活动 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_breakdown": { 
"range": { 
"script": "doc['"'attendees'"'].values.length", 
获取 参与 者 数量 ， 和 之 前 的 例子 同型 
"ranges": [ ” <--- 用 于 计数 的 范 昌 
{ "tol! : 


} 
}} 
### reply 

"aggregations" : { 

"attendees_breakdown" 

"buckets" : [ { 
"key" h "*-4,0", 
"to" : 4.0, 
"to_as_string" : "4.0", 
"doc_count" : 4 <。--- 对 于 每 个 范围 ,你 获取 了 文档 的 计数 

}, { 
"key" : "4.0-6.0", 
"From" : 4.0, 
"from_as_string" : "4.0", 
"to" : 6.0, 
"to_as_string" 
"doc_count" : 11 

{ 

"key" : "6.0-*", 
"From" : 6.0, 
"from_as_string" 
"doc_count" 


从 代码 清单 7-11 中 可 以 看 出 ， 没 有 必要 为 每 个 聚集 中 的 范围 都 指 
定 from 和 to 人 参数。 忽略 其 中 一 个 参数 ， 将 会 去 掉 相 应 的 边界 ， 这 人 多 
许 用 户 搜索 所 有 的 活动 ， 包 括 少 于 4 个 会 员 和 多 余 6 个 会 员 的 那些 。 


2. date_rangese $R 


如 你 所 想 ，date_range 聚集 和 range 聚集 一 样 运作 ， 除 了 放 在 
范围 定义 中 的 是 日 期 字符 串 。 由 于 这 一 点 ， 你 应 该 定义 日 期 格式 ， 这 
样 Elasticsearch 才 知道 如 何 翻译 你 所 提供 的 字符 串 ， 并 将 其 转化 为 日 期 
字段 所 存储 的 形式 ， 即 数值 型 的 UNIX 时 间 。 


代码 清单 7-12 将 活动 划分 为 两 个 分 类 ， 即 2013 年 7 月 之 前 开始 的 和 
a 开始 的 。 用 户 可 以 使 用 类 似 的 方法 来 统计 未 来 的 活动 和 过 去 
yy A ° 


代码 清单 7-12 ”使 用 date_range 康 集 ， 根 据 安排 的 日 期 来 划分 活动 


URI=localhost:9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"dates_breakdown": { 
"date_range": 
"field": "date", 
"format": "YYYY.MM", ~--- 定 义 一 个 格式 ， 解 析 日 期 字符 串 
"ranges": [ 
{ "to": "2013.07" }, =---- 范 围 也 是 通过 日 期 字符 串 来 定义 的 
{ "from": "2013.07"} 


"aggregations" : { 
"dates breakdown" : { 

"buckets" : [ { 
"key" : "*-2013.07", 
"to" : 1.3726368E12, 
"to_as_string" : "2013.07", 
"doc_count" : 8 <--- 对 于 每 个 范围 ， 你 获得 了 文档 的 数量 

}, { 
"key" : "2013.07-*", 
"from" : 1.3726368E12, 
"from_as_string" : "2013.07", 
"doc_count" : 7 


XB format 字段 的 值 看 上 去 似曾相识 ， 这 是 因为 它 和 你 在 第 3 章 
看 到 的 Joda 时 间 标注 一 样 ， 在 那里 映射 定义 了 日 期 格式 。 


7.3.3 histogram 


为 了 处 理 数值 型 的 范围 ， 还 可 以 使 用 histogram 聚集 。 这 和 刚 
刚 看 到 的 range 聚集 很 像 ， 但 是 不 再 手动 定义 每 个 范围 ， 而 是 定义 一 
个 固定 的 间距 ， 然 后 Elasticsearch 会 为 你 构建 多 个 范围 。 例 如 ， 如 果 想 
获取 人 们 的 年 龄 分 组 ， 可 以 定义 一 个 10 的 整数 〈10 年 ) ， 然 后 得 到 0~- 
10 (不 包括 10) > 10~20 (不 包括 20) 等 这 样 的 桶 。 


和 range 聚集 类 似 ，histogram 聚集 有 一 个 用 于 日 期 的 变 体 ， 


称 为 date_histogram 聚集 。 这 非常 有 用 ， 举 个 例子 ， 你 可 以 构建 
直方 图 来 展示 每 天 邮件 列表 上 有 多 少 封 电子 邮件 被 发 出 。 


1. 直方 图 聚集 


运行 histogram 聚集 和 运行 range 聚集 是 类 似 的 。 只 需要 将 
ranges 数组 替换 为 一 个 Interval ， 然 后 Elasticsearch 将 会 构建 从 最 
小 值 开始 的 范围 ， 并 不 断 地 加 入 interval ， 直 到 包含 了 最 大 值 。 例 
如 ， 代 码 清单 7-13 指 定 了 值 为 1 的 interval ， 并 展示 了 多 少 个 活动 
有 3 名 参与 者 、 多 少 个 活动 有 4 名 参与 者 、 多 少 个 活动 有 5 名 参与 者 。 


代码 清单 7-13 histogram 聚 集 展示 了 不 同 参与 者 数量 所 对 应 的 活动 数量 


URI=localhost :9200/get -together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"attendees_histogram": { 
"histogram": { 


"script": "doc['"'attendees'"'].values.length", 
"interval": 1 。--- 用 于 构建 范围 的 间距 。 这 里 想 看 到 每 个 值 ， 所 以 选择 间距 
为 1 
} 
} 
it 
### reply 
"aggregations" : { 
"attendees_histogram" : { 


"buckets" : [ { 
"key" : 3, <---key 显示 了 范围 的 起 始 值 。 终 止 值 是 起 始 值 加 上 间距 值 


"doc _count" : 4 


} ft 
"key" : 4, =---- 下 一 个 起 始 值 就 是 前 一 个 的 终止 值 
"doc_count" : 9 
} {í 
"key" : 5, 
"doc_count" : 2 


和 terms REKRY, histogram 聚集 让 用 户 可 以 指定 一 个 
min_doc_count 值 。 当 用 户 和 希望 文档 很 少 的 桶 被 忽略 的 时 候 ， 这 个 
特性 很 有 帮助 。 当 希望 展示 空 的 桶 时 ，min_doc_count 同样 非常 有 


用 。 默 认 地 ， 如 果 在 最 小 值 和 最 大 值 之 间 的 某 个 间距 不 包含 任何 文 
档 ， 这 个 间距 就 会 被 省 略 。 将 min_doc_count 设 置 为 9 ， 这 种 间距 
仍然 会 被 显示 ， 文 档 的 计数 为 0 。 


2. 日 期 直方 图 聚集 


如 你 所 想 ， 可 以 像 histogram 聚集 那样 ， 使 用 
date_histogram 聚集 ， 但 是 需要 在 interval 字段 里 插入 日 期 。 
这 个 日 期 需要 设置 为 和 date_histogram 聚集 一 样 的 Joda 时 间 标 注 ， 
比如 1M 或 者 1.5h 这 样 的 值 。 举 个 例子 ， 代 码 清单 7-14 将 活动 按照 月 
份 进行 划分 。 


代码 清单 7-14 ”按照 月 份 统计 的 活动 histogram 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"event_dates": { 
"date_histogram": { 
"field": "date", 
"interval": "1M" 一--- 这 里 的 间距 被 指定 为 日 期 字符 串 


U 


} 
} 
i 
### reply 
"aggregations" : { 
"event_dates" : { 


"buckets" : [ { 
"key_as_string" : "2013-02-01T00:00", «<---ixX#key_as_ string 


更 为 有 用 ， 因 为 对 于 人 类 而 言 ， 它 是 可 读 性 更 强 的 日 期 格式 
"key" : 1359676800000, 


"doc_count" : 1 
}, { 
"key_as_string" : "2013-03-01T00:00", 
"key" : 1362096000000, 
"doc_count" : 1 
}, 1 
"key_as_string" : "2013-04-01T00:00", 
"key" : 1364774400000, 
"doc_count" : 2 


[..] 


束 像 普通 的 histogram 聚集 ， 可 以 使 用 min_doc_count 选项 
来 显示 空 的 桶 ， 或 者 是 忽略 只 包含 少量 文档 的 桶 。 


你 可 能 注意 到 ，date_histogram 聚集 和 其 他 多 桶 聚集 有 两 个 
共同 点 : 
。 它 统计 了 有 特定 词 条 的 文档 ; 
。 它 为 每 个 分 类 创建 了 文档 的 桶 。 
只 有 将 其 他 聚集 拱 套 到 多 桶 聚集 中 的 时 候 ， 桶 的 本 喘 才 有 价值 。 
这 让 你 能 够 更 加 深刻 地 洞察 数据 ， 下 个 章 世 将 介绍 租 套 聚集 。 首 移 ， 
花 点 时 间 来 看 下 表 7-2， 它 提供 了 多 桶 聚集 及 其 典型 用 例 的 快速 预览 


表 7-2 ”多 桶 聚集 及 其 典型 用 例 


[0] 


展示 博客 站 点 上 的 标签 ， 例 如 某 个 新 闻 站 点 上 了 
题 
oy 


significant 。 | 确定 新 的 技术 趋势 ， 看 看 本 月 有 哪些 使 用 /下 载 次 数 比 往 


terms BA 


range 和 date _ 显示 入 门 级 、 价 可 适中 和 价格 昂贵 的 笔记 本 电脑 
range 的 活动 、 本 周 活动 和 即将 到 来 的 活动 


histogram 和 date | 显示 分 布 : 每 个 年 龄 段 锯 炼 的 人 数 ， 或 者 是 显示 趋势 ， 每 天 
_ histogram 购买 的 物品 


这 张 表 并 没有 列 出 所 有 的 聚集 ， 但 是 它 包 含 了 最 为 重要 的 聚集 类 
型 和 它们 的 选项 。 用 户 可 以 查看 相关 文件 来 获取 完整 的 列表 。 同 样 ， 
附录 A 会 讲述 地 理 位 置 的 育 集 ， 第 8 章 会 讲述 娩 套 和 子 案 集 。 


7.4 WERKE 


SRR IEANTRAC MEF, ALBA ET ¢ Glan, mMRA-ME 
客 ， 记 录 了 对 帖子 的 每 次 访问 ， 就 可 以 使 用 terms 聚集 来 展示 看 得 最 
多 的 帖子 。 但 是 ， 也 可 以 在 terms 聚集 中 内 套 一 个 cardinality X 
集 ， 来 展示 每 个 帖子 里 唯一 访客 的 数量 ， 甚 至 可 以 修改 terms 聚集 的 
排序 ， 来 展示 拥有 最 多 唯一 访客 的 帖子 。 


如 你 所 想 ， 崩 套 限 集 为 数据 的 探索 开启 了 全 新 的 可 能 。 骨 套 是 
Elasticsearch 中 聚集 逐步 取代 切面 (facet) 的 主要 原因 ， 因 为 切面 是 无 
法 组 合 的 。 


多 桶 案 集 通常 是 开始 率 集 的 起 始点 。 举 个 例子 ，terms RRIF 
用 户 展 示 getrtogether 分 组 的 热门 标签 ;这 意味 着 将 为 每 个 标签 创建 一 
个 文档 桶 。 然 后 ， 可 以 使 用 子 聚 集 来 展现 每 个 桶 的 更 多 度量 。 例 如 ， 
可 以 展示 对 于 每 个 标签 ， 人 们 每 个 月 创建 了 多 少 组 ， 如 图 7-10 所 示 。 


TRR: 
类 型 : 日 期 直方 图 
字段 : 日 期 


2012 2013 2014 2013 2014 2012 2013 2014 


图 7-10 在 terms RR iKRedate_histogram 聚集 


本 章 稍 后 将 讨论 娩 套 的 一 个 特定 用 例 : 结果 分 组 (result 
grouping) 。 普 通 的 搜索 根据 相关 性 ， 返 回 排名 靠 前 的 N 个 结果 。 而 结 
果 分 组 和 普通 搜索 不 同 ， 它 为 父 聚 集 所 产生 的 每 个 文档 桶 返回 前 N 个 
结果 。 假 设 你 有 一 个 在 线 的 商店 ， 而 某 位 顾客 搜索 了 “Windows”。 通 
常 ， 相 关 性 排序 的 结果 首先 会 显示 多 个 版 本 的 Windows 操 作 系统 。 这 
可 能 不 是 最 好 的 用 户 体验 ， 因 为 这 个 阶段 还 无 法 100% 明 确 用 户 是 希望 
购买 一 个 windows 操 作 系统 、 运 行 在 Windows 上 的 软件 ， 还 是 和 
Windows 兼 容 的 人 硬件 。 这 种 场景 下 结果 分 组 就 有 用 武之 地 了 ， 如 图 7- 
11 所 示 : 可 以 展示 操作 系统 、 软 件 、 硬 件 3 个 分 类 中 每 类 的 前 3 个 结 
果 ， 为 用 户 提 供 更 广泛 的 结果 。 用 户 可 能 想 点 击 分 类 的 名 称 ， 来 进 一 
步 将 搜索 的 范围 缩小 到 指定 类 目 。 


上 层 聚 集 : 
类 型 : 词 条 
字段 : 分 类 


Windows 8 Dell XPS Office 2014 


Windows 7 HP 650 McAffee °14 


子 聚 集 : 
类 型 : 排名 靠 前 的 点 击 


Windows 8.1 Asus A 


(全 部 运行 Windows 系 统 ) 


Corel XX 


图 7-11 将 top_hits R#meteterms 聚集 之 中 ， 来 获得 结果 的 分 组 


在 Elasticsearch 中 ， 可 以 使 用 称 为 top_hits 的 特殊 聚集 来 获得 结 
果 的 分 组 。 对 于 父 聚 集 生成 的 每 个 桶 ， 该 聚集 返回 前 N 个 结果 ， 结 果 
都 是 按照 得 分 或 者 某 个 你 选择 的 标准 来 排序 。 就 像 图 7-11 中 在 线 商店 
的 例子 一 样 ， 父 聚集 可 以 是 运行 在 category 字段 上 的 terms RÆ -° 
下 一 节 将 介绍 这 种 特殊 的 聚集 。 


我 们 讨论 的 最 后 一 个 代 套 使 用 案例 ， 征 控制 运行 聚集 的 文档 集 
合 。 例 如 ， 无 论 何 种 查询 ， 你 可 能 希望 为 去 年 所 创建 的 get-together 分 
组 展示 最 热门 的 标签 。 为 了 实现 这 一 点 ， 可 以 使 用 filter RR, € 
创建 了 和 给 定 过 滤 硕 相 匹配 的 文档 桶 ， 在 其 中 能 够 般 套 其 他 聚集 。 


7.4.1 RELHA 


NS RT RAMA TRABK, APBERRRRG YA 
层 ， 使 用 aggregations 或 aggs 键 ， 然 后 在 对 应 的 值 中 放 入 子 聚 集 
的 定义 。 对 于 多 桶 聚集 ， 这 个 操作 可 以 无 限 地 进行 下 去 。 例 如 ， 代 码 
清单 7-15 将 使 用 terms 聚集 来 展示 热门 标签。 对 于 每 个 标签 ， 将 使 用 
date_histogram 聚集 来 显示 每 个 标签 中 ， 每 个 月 有 多 少 分 组 被 创 
建 。 最 后 ， 对 于 分 组 中 的 每 个 桶 ， 将 使 用 range 聚集 来 展示 多 少 分 组 
的 会 员 少 于 3 人 、 多 少 分 组 的 会 员 至 少 有 3 人 。 


代码 清单 7-15 AMR RREK 


URI=localhost :9200/get -together/group/_search 
curl "$URI?pretty&search_type=count" -d '{ 


"aggregations": { <--- 上 典型 的 词 条 聚集 ， 获 取 热 门 标签 
"top_tags": { 
"terms": { 
"field": "tags.verbatim" 
ty 


"aggregations": { =--- 在 其 中 ， 使 用 聚集 键 来 定义 一 个 子 聚 集 


"groups_per_month": { 
"date_histogram": { <---WFeSA Tine, HBT RFRA SIS 


"field": "created_on", 
"interval": "1M" 
ty 
"aggregations": { 
"number_of_members": { =--- 为 日 期 直方 图 也 定义 了 子 聚 集 
"range": { =--- 对 于 每 个 标签 + AGW, TCHR 
"script": "doc['"'members'"'].values.length", 
"ranges": [ 
{ "to": 3 }, 
{ "from": 3 } 


"aggregations" : { =--- 这 里 是 大 家 熟悉 的 内 容 : big data 是 最 热门 的 标签 ， 
包含 3 篇 文档 
"top_tags" : { 
"buckets" : [ { 


"key" : "big data", 
"doc_count" : 3, 


"groups_per_month" : { <--- 根 据 big data 文档 创建 月 份 来 产生 的 桶 
"buckets" : [ { 


"key_as_string" : "2010-04-01", ~--- 这 篇 文档 是 2010 年 4 H 


创建 的 
"key" : 1270080000000, 
"doc_count" : 1, 
"number_of_members" : { 
"buckets" : [ { 
"key" g "*-3.0", 
"to" : 3.0, 
"to_as_string" : "3.0", =--- 这 篇 文档 包含 的 会 员 少 于 3 位 
"doc_count" : 1 


"key" : "3.0-*", 
"from" : 3.0, 
"from_as_string" : "3.0", 
"doc_count" : 0 
} ] 
} 
tr { 
"key_as_string" : "2012-08-01", <---big data 下 一 个 桶 是 
2012 年 8 月 创建 的 
[...] “~--- 分 析 还 在 继续 ， 展 示 了 所 有 big data 的 桶 ， 以 及 余下 的 标签 


用 户 总 是 可 以 将 度量 型 聚集 扔 套 在 桶 型 聚集 里 。 例 如 ， 如 果 想 得 
到 每 组 会 员 的 平均 数量 ， 而 不 是 之 前 代码 清单 中 的 “0 到 2 位 ?和 “3 位 以 
上 ”的 范围 ， 可 以 使 用 avg 或 stats RE ° 


在 7.4.1 节 中 ， 我 们 承诺 要 介绍 一 种 特殊 类 型 的 聚集 top_hits 。 
对 于 父 凤 集 所 产生 的 每 个 桶 ， 它 都 会 按照 你 喜欢 的 标准 来 排序 ， 并 返 
回 前 N 个 结果 。 接 下 来 将 介绍 如 何 使 用 top_hits 聚集 来 获得 结果 分 
组 。 


7.4.2 JEWRERRR RH 


想 按照 特定 的 分 类 将 排名 靠 前 的 结果 进行 分 组 的 时 候 ， 结 末 分 组 


， 一口 


征 很 有 用 处 的 。 融 像 Google 那 样 ， 当 同一 个 站 点 返回 许多 结 末 的 时 


修 ， 有 的 时 候 只 会 看 见 大 约 前 3 个 ， 然 后 束 是 来 目下 一 个 站 点 的 结 霖 。 
你 忌 是 可 以 点 击 站 点 的 名 字 来 获得 该 站 点 和 查询 所 匹配 的 全 部 结 


这 就 是 结果 分 组 的 目的 : 它 给 用 户 一 个 更 好 的 全 局 理解 。 假 设 希 
望 向 用 户 展示 最 近 的 活动 ， 而 且 为 了 让 结果 更 具 多 样 性 ， 将 展示 最 为 
活跃 的 参与 者 所 参加 的 活动 。 代 码 清单 7-16 在 attendees 字段 上 运行 
StermRe, FER PRE Stop_hits 聚集 。 


代码 清单 7-16 ”使 用 top_hits 聚 集 来 获得 结果 分 组 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 

"frequent_attendees": { 


"terms": { 
"field": "attendees", ~--- 词 条 聚集 返回 了 参加 活动 最 多 的 两 位 用 户 
"Size": 2 

}, 


"aggregations": { 
"recent_events": { 
"top_hits": { 


«---jXHtop_hits AIRE ST SAM 
"sort": { 
"date": "desc" ~--- 最 近 的 活动 排 在 前 面 


}, 
"_source": { ~--- 你 可 以 选择 要 包含 的 字段 
"include": [ "title" ] 


ty 
"size": 1 «---ffHsize 来 选择 每 个 桶 的 结果 数量 
} 
} 
} 
### reply 
"aggregations" : { 
"frequent_attendees" : { 
"buckets" : [ { 
"key" $ "lee", 


"doc_count" : 5, =----Lee 是 最 活跃 的 会 员 ， 参 加 了 5 个 活动 
"recent_events" : 
"hits" : { =--- 结 果 和 你 查询 时 返回 的 结果 看 上 去 是 一 样 的 
"total" : 5, 
"max_score" : 1.0, 


"hits" : [ { 
"index" : "get-together", 
"type" : "event", 


"_ score" : 1.0, 
"source": {"title":"Liberator and Immutant"}, 
"sort" : [ 1378404000000 ] 


} 
}, { 
"key" : "shay", 
"doc_count" : 4, 
"recent_events" : { 
"hits" : { 


ree 
"source": {"title":"Piggyback on Elasticsearch 
training in San 
Francisco"}, 


[...] 


一 开始 ， 你 会 觉得 使 用 聚集 来 实现 结果 分 组 看 上 去 有 点 奇怪 。 但 
征 ， 现 在 你 已 经 学 习 了 什么 是 聚集 ， 可 以 看 到 这 些 桶 的 概念 和 内 套 是 


多 么 强大 ， 它 们 可 以 实现 更 多 的 事情 ， 而 不 仅仅 是 查询 结果 上 的 一 些 
统计 数据 。top_hits 聚集 就 是 一 个 非 统计 结果 的 例子 。 


运行 聚集 的 时 候 ， 你 并 非 被 限制 在 查询 结 有 末 上 “。 如 在 7.1 节 所 学 ， 
在 查询 结 末 上 案 集 ， 这 是 默认 的 行为 。 但 是 如 琳 真 的 需要 ， 也 可 以 有 
迁 回 的 办 法 。 举 个 例子 ， 假 设想 在 博客 站 点 侧 边 栏 的 某 个 位 置 ， 展 示 
最 为 流行 的 博客 帖子 之 标签 。 而 且 ， 无 论 用 户 搜 索 什 么 ， 都 想 显示 这 
个 侧 边栏 。 为 了 实现 这 个 目标 ， 需 要 在 所 有 的 博客 帖子 上 运行 terms 
聚集 ， 让 其 独立 于 查询 。 这 里 global 聚集 变 得 很 有 用 处 : CERT 
一 个 桶 ， 包 含 了 搜索 情景 下 的 所 有 文档 《你 所 搜索 的 索引 和 类 型 ) ， 
让 内 套 在 全 局 缘 集中 的 其 他 聚集 可 以 运行 在 所 有 的 文档 上 。 


| global ASA HR 可 以 用 其 修改 用 于 其 他 聚集 的 文 
当 集合 ， RE BOK 用 聚集 


7.4.3 ”使 用 单 桶 案 集 


如 在 7.1 节 所 见 ， 上 默认 情况 下 ， Elasticsearch 在 查询 结果 上 运行 聚 
集 。 如 果 想 改变 这 种 默认 行为 ， 将 要 使 用 单 桶 聚集 。 这 里 讨论 其 中 的 3 


global 聚集 创建 了 一 个 桶 ， 包 含 了 搜索 的 索引 和 类 型 中 的 全 音 
文档 。 当 用 户 希 望 无 论 何 种 查询 ， 都 在 所 有 的 文档 上 运行 聚集 
时 ， 这 一 点 非常 有 用 。 

filter 和 filters 聚集 创建 的 桶 包含 了 所 有 和 铬 干 过 滤器 相 匹 
配 的 文档 。 想 进一步 限制 文档 集合 的 时 候 ， 这 一 点 很 有 用 。 例 
如 ， 只 在 有 货 的 物品 上 运行 聚集 ， 或 者 是 在 有 货物 品 和 促销 物品 
上 进行 不 同 的 聚集 。 

missing 聚集 创建 的 桶 包含 了 那些 缺乏 某 个 特定 字段 的 文档 。 假 
想 在 某 个 字段 上 运行 了 一 个 育 集 ， 有 些 文档 由 于 没有 这 个 字段 而 
没有 被 统计 在 内 ， 但 是 你 又 想 对 这 些 文档 进行 一 些 计 算 ， 那 么 缺 
失 聚 集 就 很 有 用 了 。 比 如 ， 既 显示 多 个 商店 内 物品 的 平均 价格 ， 
同时 也 显示 对 这 些 物 品 没 有 标价 的 商店 数量 。 


1. global 


使 用 代码 样 例 中 的 get-together 站 点 为 例 ， 假 设 正在 查询 关于 
Elasticsearch 的 活动 ， 但 是 你 想 看 看 整体 最 为 热门 的 标签 。 正 如 之 前 所 
说 ， 你 期 望 在 侧 边 栏 上 的 某 处 显示 这 些 标签 ， 和 用 户 的 搜索 无 关 。 为 
了 实现 这 一 点 ， 需 要 使 用 global 聚集 ， 它 可 以 修改 查询 到 聚集 的 数 
据 流 ， 如 图 7-12 所 示 。 


文档 
A 


Al7-12 ”将 其 他 聚集 嵌 套 在 global 聚集 之 中 ， 让 它们 可 以 在 全 部 的 文档 上 运行 


在 代码 清单 7-17 中 ， 将 terms 聚集 舱 套 在 global 聚集 里 ， 以 此 
获得 所 有 文档 中 最 为 热门 的 标签 ， 即 使 查询 只 是 查找 了 标题 里 含 
有 “elasticsearch” 字 样 的 文档 。 


代码 清单 7-17 无 论 是 何 种 查询 ，global 聚 集 帮 助 我 们 展示 整体 的 热门 标签 


URI=localhost:9200/get-together/group/_search 
curl "$URI?pretty&search_type=count" -d '{ 


"query": { 
"match": { 
"name": "elasticsearch" 
} 
ty 
"aggregations": { 
"all documents": { ~<---@mRREVRE 
"global": {}, 


"aggregations": { 
"top_tags": { 


"terms": { <---iWRRRRERS, KARTENA NAGE E 
"field": "tags.verbatim" 
} 
} 
} 
} 
了 了 
### reply 
[…] 
"hits" 


-- - -查询 返回 了 两 篇 文档 
"total" : 2, 


[…] 
"aggregations" : { 
"all_documents" : { 


--- -但 是 聚集 是 运行 在 所 有 的 5 篇 文档 上 


"doc_count" : 5, 


"top_tags" : { 
"buckets" : [ { 
"key" : "big data", <---iWARRNZREA LEM BWR 


"doc _count" : 3 


当 我 们 说 “所 有 文档 "时 ， 有 是 指 搜索 URI 所 定义 的 搜索 情景 下 的 所 
有 的 文档 。 这 种 情况 搜索 了 get-together 索 引 的 group 类 型 ， 所 以 全 许 
的 分 组 都 会 被 考虑 在 内 。 如 条 坪 搜索 整个 get-together 索 引 ， 那 么 分 组 
和 活动 (event) 都 会 被 育 集 统计 在 内 。 


2. filter Re 


”还 记得 7.1 节 的 后 过 滤器 吗 ? 它 是 在 直接 定义 在 JSON 请 求 中 的 过 
ier, MANERA TENE Ho Falter BENZ, AN 


A BY 区 4 
会 影响 聚集 。 


而 filter 案 集 恰恰 相反 它 限制 了 诊 集 所 统计 的 文档 ， 而 不 会 
影响 查询 结果 ， 如 图 7-13 所 示 。 


图 7-13 ”对 于 风 套 其 中 的 子 聚 集 ， 过 滤器 聚集 限制 了 该 子 聚 集 统计 的 查询 结果 


假设 在 搜索 标题 中 舍 “elasticsearch” 关 键 词 的 活动 ， 并 希望 从 描述 
的 单词 中 创建 一 个 单词 云 ， 不 过 你 只 想 统 计 最 近 的 文档 一 一 假设 是 
2013 年 7 月 1 日 之 后 的 。 


为 了 实现 这 一 点 ， 代 码 清单 7-18 和 往常 一 样 运行 了 一 个 查询 ， 不 
过 加 上 了 率 集 。 首 先 拥 有 一 个 filter 聚集 ， 将 文档 集合 限制 在 7 月 1 
HZR, ABER SRE Sterms 聚集 ， 用 于 产生 单词 云 的 信息 。 


代码 清单 7-18 。 filter 聚集 限制 了 从 查询 而 来 的 文档 集合 


URI=localhost :9200/get-together/event/_search 
curl "$URI?pretty&search_type=count" -d '{ 


"query": { 
"match": { 
"title": "elasticsearch" 


} 
}, 
"aggregations": { 
"since_july": { 


-- -过 滤器 查询 定义 了 一 个 桶 ， 子 聚集 将 在 这 个 桶 上 运行 
"filter": { 


"range": { 


"date": { 


"gt": "2013-07-01T00:00" 


}, 


"aggregations": { 
"description_cloud": { 
"terms": { 
"field": "description" 


"hits" : { 
"total" : 7, =--- 查 询 返 回 了 7 项 结果 
[...] 
"aggregations" : { 
"since_july" : { 
"doc_count" : 2, «<---fidescription_cloud 聚集 只 在 和 过 滤器 匹配 的 
两 个 结果 上 运行 
"description_cloud" : { 
"buckets" : [ { 
"key" g "we", 
"doc_count" : 2 
ty 
"key" g "with", 
"doc_count" : 2 


还 有 一 个 filters (复数 ) 聚集 ， 它 允许 定义 多 个 过 滤器 。 这 个 聚集 和 filter RE 
类 似 ， 除 了 它 会 生成 多 个 桶 ， 每 个 过 滤器 一 个 桶 A baie RIL EON 有 一样， 每 
ANTE EE dN 
六 范围 一 个 桶 。 


3. missing 


目前 为 止 ， 我 们 所 见 过 的 聚集 大 多 数 十 创建 文档 的 桶 ， 并 为 茶 个 
字段 获取 度量 值 。 如 采 某 篇 文档 缺失 了 该 字段 ， 它 就 不 再 十 桶 的 一 部 
分 ， 也 不 会 对 任何 度量 产生 贡献 。 


a PORY, 可 能 有 一 个 运行 在 活动 日 期 字段 的 date_ histogram 
聚集 ， 但 是 某 些 活动 还 没有 设置 日 期 。 用 户 也 可 以 通过 missing 聚集 
来 统计 它们 。 


% curl "$URI?pretty&search_type=count" -d '{ 
"aggregations": { 
"event_dates": { 
"date_histogram": { 
"field": "date", 


"interval": "1M" 


} 


"missing date": { 
"missing": { 


"field": "date" 


和 其 他 单 桶 型 聚集 一 样 ，missing RBRTAP ERP REE Hh 


聚集 。 例 如 ， 可 以 使 用 max 聚集 来 显示 尚未 设置 日 期 的 活动 中 ， 最 大 
的 参加 人 数 。 

还 有 几 个 重要 的 单 桶 型 聚集 这 里 尚未 讨论 ， 就 像 nested 聚 集 和 
reverse_nested 聚集 ， 它 们 可 以 对 藤 套 文档 充分 使 用 聚集 的 能 
Ho 


(EA RENH Elasticsearch FAHER REAA — e FEF 
一 章 你 将 了 解 所 有 涉及 文档 间 关 系 的 内 容 ， 包 括 构 套 文档 和 崩 套 至 


集 o 
7.5 小结 


本 章 洱 关 了 主要 的 聚集 类 型 ， 以 及 如 何 将 它们 组 合 起 来 ， 用 于 和 
查询 相 匹配 的 文档 ， 洞 悉 其 本 质 。 


e a 聚集 帮助 用 户 获 得 查询 
ZH y DL ° 

聚集 是 Elasticsearch 中 一 种 新 形式 的 切面 ， 拥 有 更 多 类 型 ， 还 可 以 
将 它们 组 合 以 获取 对 数据 更 深入 的 理解 。 

。 主要 有 两 种 类 型 的 聚集 : 桶 型 和 度量 型 。 

。 度 量 型 聚集 计算 一 组 文档 上 的 统计 值 ， 如 某 个 数值 型 字段 的 最 小 
值 、 最 大 值 或 者 平均 值 。 


某 些 度量 型 聚集 通过 近似 算法 来 计算 ， 这 使 得 它们 具有 比 精 确 聚 
集 更 好 的 扩展 性 。 百 分 位 percentiles 和 cardinality 聚集 就 


是 如 此 。 


桶 型 察 集 将 文档 放 入 1 个 或 多 个 桶 中 ， 并 为 这 些 桶 返回 计数 絮 。 例 
如 ， 某 个 论坛 中 最 流行 的 帖子 。 用户 可 以 在 桶 型 聚集 中 藤 入 子 育 
集 ， 对 于 父 聚 集 所 产生 的 每 个 桶 一 次 性 地 运行 子 聚 集 。 比 如 ， 对 
ag 可 以 使 用 般 套 来 获得 该 结果 集 的 平均 
TERN ° 

top_hits 聚集 可 以 用 作 一 种 子 聚集 ， 来 实现 结 末 的 分 组 。 
terms 聚集 通常 用 于 发 现 活路 的 用 户 、 常 见地 址 、 热 门 的 物品 等 
场景 。 其 他 的 多 桶 型 聚集 是 terms 聚集 的 变 体 ， 如 
significant_terms 聚集 ， 返 回 了 相对 于 整体 索引 而 言 ， 查 询 
结果 集中 经 常 出 现 的 词 。 

range 和 date_range 聚集 用 于 对 数值 和 日 期 数据 的 分 类 。 而 
histogramfildate_histogram 聚集 是 类 似 的 ， 不 过 它们 使 用 
固定 的 间距 而 不 是 人 工 定 义 的 范围 。 

单 桶 型 聚集 ， 如 glLobal、filter、filters 和 missing 3% 
集 ， 可 以 修改 用 于 其 他 聚集 运行 的 文档 集合 ， 因 为 默认 情况 下 文 
档 集 合 是 由 查询 所 确定 的 。 


第 8 章 ”文档 间 的 关系 


本 章 主要 内 容 


对 象 和 对 象 数 组 

藤 套 映射 、 查 询 和 过 滤器 

父 映 射 、has_parent 和 has_child 查询 和 过 滤器 
反 规 范 化 (denormalization) 技术 


有 些 数 据 天 生 束 是 有 关联 的 。 例 如 ， 在 我 们 全 书 使 用 的 get- 
together 站 点 上 ， 人 们 按照 兴趣 是 否 相同 组 成 了 多 个 分 组 ， 而 活动 又 是 
o 根据 特定 主题 ， 你 将 如 何 搜索 哪些 分 组 举办 了 相 
关 的 活动 9 


如 有 数据 是 书 平 的 结构 ， 那 么 你 可 以 跳 过 本 章 ， 进 入 到 第 9 章 所 讨 
论 的 扩展 性 话题 。 日 志 数 据 通 常 是 这 种 情况 ， 字 段 之 则 是 相互 独立 
的 ， 如 时 间 鹤 、 严 重 程 度 和 消 恩 。 男 一 方面 ， 如 末 数 据 中 有 相关 联 的 
实体 ， 如 博客 帖 和 评论 、 用 户 和 产品 等 ， 那 么 你 可 能 整 会 好 奇 ， 如 何 
最 好 地 表示 文档 之 间 的 关系 ， 以 便 针 对 这 些 天 系 来 运行 查询 和 案 集 。 


有 了 Elasticsearch， 就 不 必 像 SQL 数据 库 那 样 进行 连接 (join) 操 

作 。 正 如 8.4 节 所 讨论 的 反 规 范 化 (复制 数据 ) ， 那 样 做 的 原因 是 ， 在 
分 布 式 系统 中 进行 查询 时 的 连接 操作 通常 是 很 缓慢 的 ， 而 Elasticsearch 
试图 成 为 实时 性 的 系统 ， 并 在 训 秒 级 返回 查询 的 结果 。 整 体 来 看 ， 在 
Elasticsearch 中 有 多 种 方法 来 定义 关系 。 上 比如， 可 以 根据 位 置 来 搜索 活 
动 ， 或 者 根据 活动 的 属性 来 搜索 分 组 。 我 们 将 探索 所 有 的 可 能 性 ， 来 
定义 Elasticsearch 文 档 间 的 关系 WRAY ` EMH. RE RATA 
反 规 范 化 ， 本 章 也 会 研究 每 项 的 优 缺 点 。 


8.1 定义 文档 间 关 系 的 选项 概览 


首 移 来 快速 定义 每 种 方法 : 


ay 


对 象 类 型 一 这 人 允许 你 将 一 个 对 象 作 为 文档 字段 的 值 。 例 如 ， 活 
动 地 址 的 address 字段 可 以 是 某 个 对 象 ， 该 对 象 拥有 目 己 的 字 
Be: city, postal code, street name 等 等 。 如 果 同 样 的 
活动 在 多 个 城市 举行 ， 甚 至 可 以 拥有 一 个 地 址 数组 。 

藤 套 文档 一 一 对 象 类 型 的 问题 在 于 ， 所 有 的 数据 都 存储 在 同一 篇 
文档 中 ， 所 以 搜索 可 能 会 查找 多 个 子 文档 。 例 如 ， 尽 管 在 巴黎 并 
没有 百老汇 大 街 ,，city=Paris AND street_ 
name=Broadway 这 个 查询 仍然 会 返回 非 预 期 的 结果 ， 那 天 是 在 
纽约 和 巴黎 同时 举行 的 活动 。 骸 套 文档 允许 你 索引 同样 的 JSON 文 
档 ， 但 是 将 地 址 保存 在 单独 的 Lucene 文 档 中 ， 如 此 一 来 ， 只 有 像 
city=New York AND street_name=Broadway 这 样 的 搜索 
才 会 返回 期 望 的 结果 。 

文档 间 的 父子 关系 这 种 方法 可 以 为 不 同类 型 的 数据 ， 使 用 完 
全 独立 的 Elasticsearch 文 要 ， 职 像 活动 和 分 组 ， 不 过 仍然 可 以 定义 
它们 之 间 的 关系 。 举 个 例子 ， 可 以 计 分 组 作为 活动 的 父辈 ， 用 于 
表示 哪些 分 组 举行 了 哪些 活动 。 这 人 允许 你 搜索 当地 分 组 所 主持 的 
活动 ， 或 者 是 主持 了 Elasticsearch 活 动 的 分 组 。 

反 规 范 化 一 一 这 是 一 项 普 遇 使 用 的 技术 ， 将 数据 进行 复制 ， 达 到 
表示 关系 的 目的 。 在 Elasticsearch 中 ， 你 将 会 利用 它 来 表达 多 对 多 
的 关系 ， 因 为 其 他 的 选项 只 能 用 于 一 对 多 的 关系 。 例 如 ， 所 有 的 
分 组 有 会 员 ， 而 且 会 员 属于 多 个 分 组 。 可 以 将 某 个 分 组 的 全 部 会 
员 放 入 该 分 组 的 文档 中 ， 来 复制 一 个 方 同 的 关系 。 

应 用 端的 连接 一 一 这 是 男 一 项 普通 使 用 的 技术 ,使 用 它 在 应 用 程 
序 中 处理 关系 。 当 数据 很 少 、 并 且 可 以 承受 规范 化 所 带 来 的 开销 
时 ， 这 能 很 好 地 运作 。 比 如 ， 可 以 将 会 员 单 独 存储 ， 在 分 组 中 只 
包含 他 们 的 ID ， 如 此 一 来 就 无 须 将 会 员 复 制 到 他 们 所 属 的 分 组 中 
去 。 然 后 ， 运 行 两 个 查询 : 首先 ， 根 据 会 员 条 件 来 过 滤 会 员 。 然 
后 ， 将 过 滤 后 的 会 员 ID 放 入 分 组 的 搜索 条 件 。 


在 深入 每 种 可 能 性 的 细节 之 前 ， 先 来 看 看 它们 及 其 典型 用 例 的 概 


8.1.1 对象 类 型 


表达 一 个 共同 兴趣 小 组 和 相关 活动 最 简单 的 方式 是 使 用 对 象 类 型 
(object type) > 这 让 你 可 以 将 JSON 对 象 或 者 JSON 对 象 数组 作为 字段 
HE, WA TEAT: 


"name": "Denver technology group", 
"events": [ 


"date": "2014-12-22", 

"title": "Introduction to Elasticsearch" 
ty 
{ 

"date": "2014-06-20", 

"title": "Introduction to Hadoop" 


如 果 你 希望 搜索 一 个 关于 Elasticsearch 的 活动 分 组 ， 可 以 在 
event .title 字段 里 搜索 。 


在 系统 内 部 ，Elasticsearch (或 说 Lucene) 并 不 了 解 每 个 对 象 的 结 
J; 它 只 知道 字段 和 值 。 文 档 最 终 是 像 下 面 这 样 进行 索引 的 : 


"name": "Denver technology group", 
"events.date": ["2014-12-22", "2014-06-20"], 


"events.title": ["Introduction to Elasticsearch", "Introduction 
to Hadoop" ] 


由 于 索引 的 方式 ， 当 每 次 只 需要 得 (通常 是 
一 对 一 的 关系 ) ， 对 象 类 型 可 以 运作 得 非常 出 彩 。 但 是 当 查询 多 个 字 
段 的 时 候 (通常 是 一 对 多 的 关系 ) ， 可 能 会 得 到 意 想 不 到 的 结果 。 例 
a, A 过 滤 于 2014 年 12 月 主办 过 Hadoop 会 议 的 分 组 ， 查 询 可 以 


"bool": { 


"must": [ 


"term": { 
"events.title": "hadoop" 


ty 
{ 


"range": { 
"events.date": { 
"from": "2014-12-01", 
"to": "2014-12-31" 


这 将 匹配 上 一 个 样本 文档 ， 它 的 标题 匹配 了 hadoop ， 日 期 在 确 
切 的 范围 内 。 但 是 这 并 不 是 你 想 要 的 : 样本 文档 的 Elasticsearch 活 动 是 
在 12 月 ， 而 Hadoop 活 动 却 是 在 6 月 。 坚 持 使 用 默认 的 对 象 类 型 是 最 
快 、 最 便捷 的 方法 来 处 理 关 系 ， 但 是 Elasticsearch 并 不 知道 内 部 文档 之 
则 的 边界 ， 如 图 8-1 所 示 。 


索引 文档 的 方式 文档 存储 的 方式 


X Ñ 
y 


name: Denver technology group 


查询 运行 的 方式 


name: Denver technology group 


events: 


dts 2014-12-22 events.date: (ous or date: 2014-12-01 TO 2014-12-31 


title: hadoop 
events.title: [Introduction i, 


Introduction to Elasticseare 


title: Introduction to Elasticsearch 
date: 2014-06-20 
title: Introduction to Hadoop 


人 
Æ 


Elasticsearch 活 动 是 在 12 月 举行 搜索 12 月 Hadoop 活 动 的 查 
Hadoop 活 动 是 在 6 月 举行 询 和 这 个 文档 匹配 上 了 


图 8-1 在 存储 的 时 候 ， 内 部 对 象 的 边界 并 未 考虑 在 内 ， 这 有 导致 了 意外 的 搜索 结果 


8.1.2 freRe 


> 上 


如 果 想 避免 这 种 路 对 象 的 匹配 的 发 生 ， 可 以 使 用 骨 套 类 型 
(nested type) ， 它 将 活动 索引 到 分 隔 的 Lucene 文 要 。 在 两 种 情况 下 ， 


分 组 的 JSON 文 档 看 上 去 一 模 一 样 ， 应 用 程序 也 将 按照 同样 的 方式 来 索 
引 它 们 。 不 同 之 处 在 于 映射 ， 这 会 促使 Elasticsearch 将 符 套 的 内 部 对 象 
索引 到 邻近 的 位 置 ， 但 是 保持 独立 的 Lucene 文 档 ， 如 图 8-2 所 示 。 在 搜 
索 的 时 候 ， 需 要 使 用 将 在 8.2 节 介绍 的 nested ikea, eS 
在 所 有 的 Lucene 文 档 中 搜索 。 


\ ] 
\ \ 没有 满足 所 有 的 条 件 。 。 / 
Y ' 


name: Denver technology group 


events: 
events.date: 2014-12-22 
i n icti 


5 : 2014-12- 2014-12- 
ts.title: Introduction to Elasticsearch daite NARIOO TOOT taro 


title: hadoop 


events.date: 2014-06-20 
events.title: Introduction to Hadoop 


Kla-2 MEXE Elasticsearch kf BP RAS | Bl BT A Lucene x44 


FERRER, BOTA ARBRE RAT He EE TE E] 
— Fee SRS PAN HAZ 48 o BARS Rn: 如 有 果 一 个 
分 组 所 有 数据 都 放 在 同一 篇 文档 中 ， 那 么 它 创 建 一 项 新 的 活动 时 ， 你 
不 得 不 为 了 这 个 活动 来 重新 索引 整 篇 文档 。 这 可 能 会 降低 性 能 和 并 发 
E, BATE ZK, ARIRE IITE ° 


8.1.3 ”父子 关系 


通过 父子 关系 ， 你 可 以 使 用 完全 不 同 的 Elasticsearch 文 档 ， 将 它们 
放 在 不 同 的 类 型 ， 并 在 每 种 类 型 的 映射 中 定义 它们 之 间 的 关系 。 例 
如 ， 可 以 在 一 种 英 射 类 型 中 存放 活动 ， 另 一 种 存放 分 组 ， 然 后 在 映射 
中 指定 分 组 是 活动 的 父 华 。 此 外 ， 当 索引 一 个 活动 的 时 候 ， 可 以 将 这 
个 活动 指向 它 所 属 的 分 组 ， 如 图 8-3 所 示 。 在 搜索 的 时 候 ， 可 以 使 用 
has_parent 和 has_child 查询 和 过 滤 需 来 考虑 父子 关系 。 本 章 稍 
百 会 讨论 这 些 。 


8.1.4 反 规 范 化 


AY FE ADEE AAA BRE, MRE PREM TAIRF RAIN 
些 选 择 。 它 们 可 用 于 一 对 一 和 一 对 多 的 关系 就 是 一 个 父 华 对 应 一 
个 或 多 个 子 莫 。 还 有 一 些 非 Elasticsearch 特 有 的 技术 ，NoSQL 数据 存 
储 会 用 其 来 弥补 连接 (join) WANE: 其 中 一 个 就 是 反 规 范 化 
(denormalizing) ， 它 意味 着 一 篇 文档 将 包含 所 有 相关 的 数据 ， 即 使 
是 同样 的 数据 在 其 他 文档 中 有 复 本 。 另 一 种 是 在 应 用 程序 中 进行 连 


接 


索引 了 多 个 文档 。 文档 间 有 父子 关系 
\ \ 
\ \ 
X \ 
Y 
name: Denver technology group name: Denver technology group 
events: 
date: 2014-12-22 RAE 父辈 


title: Introduction to Elasticsearch 
date: 2014-06-20 
title: Introduction to Hadoop date: 2014-06-20 


date: 2014-12-22 


title: Introduction to Hadoop title: Introduction to Elasticsearch 


未 能 同时 匹 未 能 同时 匹 
配 2 个 条 件 配 2 个 条 件 


ae date: 2014-12-01 TO 2014-12-30 AND title: Hadoop 


查询 查找 了 每 一 个 子 辈 文档 ， 
如 果 有 匹配 ， 就 返回 其 父辈 


图 8-3 ”不 同类 型 的 Elasticsearch 文 档 可 以 有 父子 关系 


让 我 们 以 分 组 和 其 中 的 会 员 为 例 。 一 个 分 组 可 以 拥有 多 于 一 个 的 
会 员 ， 一 个 用 户 也 可 以 成 为 多 个 分 组 的 会 员 。 分 组 和 会 员 都 有 它们 目 
己 的 一 组 属性 。 为 了 表示 这 种 关系 ， 可 以 让 分 组 成 为 会 员 的 父 牵 。 对 
于 号 为 多 个 分 组 会 员 的 用 户 而 言 ， 可 以 反 规 范 化 他 们 的 数据 : 每 次 表 
示 一 个 其 所 属 分 组 ， 如 图 8-4 所 示 。 


Ae 姓名 : Denver technology group | | 姓名 : Denver search and big data | 
文档 
父辈 父辈 父辈 父辈 父辈 
会 员 
文档 
本 SR / pe 
V 


Lee 的 文档 存储 了 两 次 : 每 个 
他 所 属 的 分 组 都 存 了 一 遍 


图 8-4 反 规 范 化 技术 将 数据 进行 复制 ， 避 免 了 高 成 本 的 关系 处 理 


换 的 方案 是 ， 可 以 将 分 组 和 会 员 各 自 单独 保存 ， 在 分 组 文档 中 
只 包含 会 员 的 ID。 可 以 在 应 用 程序 中 根据 会 员 ID 来 连接 (join) 分 组 

其 会 员 。 如 果 所 要 查询 的 会 员 ID 数 量 很 小 ， 这 样 操作 也 能 很 好 地 运 
图 8-5 所 示 。 


S 
x p> OD mm 


用 户 查 询 : 
发 现 Lee 和 Radu 的 分 组 


搜索 name=Lee 或 者 


name=Radu 的 会 员 


id: 1 搜索 members=1 或 者 回复 结果 : 
Pe members=4 的 分 组 name=Denver technology group; 
name=Denver search and big data 
id: 2 
name: Ro y 
id: 3 name: Denver technology group 
name: Susan members: 1,2,3 
id: 4 name: Denver search and big data 
name: Radu members: 1,4 
会 员 文档 分 组 文档 


一 


图 8-5 ”你 可 以 将 数据 保持 规范 化 (标准化) ， 而 在 应 用 程序 中 进行 连接 (join) 


本 章 余 下 的 部 分 将 深 入 探讨 每 项 技术 : RMH, WERE 、 
父子 关系 、 反 规范 化 和 应 用 端的 连接 。 你 将 学 习 它 们 内 部 古 如 何 运作 
a RO ERR AE CE, WARS EN, ARR ek EC 


8.2 ”将 对 象 作为 字段 值 


如 你 在 第 2 章 所 见 ，Elasticsearch 中 的 文档 可 以 是 层次 型 的 。 例 
如 ， 在 这 个 代码 样 例 中 ， 一 个 get-together 活 动 的 位 置 是 用 对 象 表 示 
的 ， 包 含 两 个 字段 ， 即 name 和 geolocation 。 


{ 


"title": "Using Hadoop with Elasticsearch", 


"location": { 
"name": "SkillsMatter Exchange", 
"geolocation": "51.524806, -0.099095" 
} 
} 


如 有 果 你 熟悉 Lucene， 可 能 会 目 问 :“ 当 Lucene 只 文 持 忆 平 结构 的 时 


候 ，Elasticsearch 文 档 怎 么 可 能 是 层级 式 的 呢 ? ”通过 对 象 ， 
Elasticsearch 在 内 部 将 层级 结构 进行 了 扁平 化 ， 使 用 每 个 内 部 字段 的 二 
路 径 ， 将 其 放 入 Lucene 内 的 独立 字段 。 整 个 流程 如 图 8-6 所 示 。 


原 有 文档 Lucene 中 存储 的 文档 
\ 


\ 
\ 


Ai \ 
\ y 


{ title: "Using Hadoop with Elasticsearch" 
"title": "Using Hadoop with Elasticsearch", location.name: "SkillsMatter Exchange" 


"location": { location.geolocation: "51.524806,—0.099095" 
"name": "SkillsMatter Exchange", 
"geolocation": "51.524806,—0.099095" 


} 
1 


图 8-6 ”JSON 层 次 型 结构 ， 在 Lucene 中 被 存储 为 扁平 结构 

通常 ， 当 你 希望 搜索 一 个 活动 的 位 置 名 称 时 ， 会 使 用 
location.name 来 引用 它 。 我 们 将 在 8.2.2 贡 来 介绍 这 一 点 ， 不 过 在 
开始 搜索 之 前 ， 先 定义 一 个 映射 ， 并 看 看 如 何 索引 一 些 文档 。 


8.2.1 映射 和 索引 对 象 


驮 认 情 况 下 ， 内 部 对 象 的 映射 是 目 动 识 别 的 。 代 码 清单 8-1 将 索引 
一 个 层次 型 的 文档 ， 并 且 观 察 映 射 识 别 征 如 何 工作 的 。 这 些 活动 文档 
看 上 去 似曾相识 ， 这 是 因为 代码 样 例 在 对 象 中 也 存储 了 活动 的 位 置 。 
可 以 在 本 书 配 套 源 代码 文件 中 获得 这 个 代码 样 例 。 


代码 清单 8-1 ”内 部 JSON 对 象 映射 为 对 象 类 型 


curl -XPUT 'localhost:9200/get-together/event-object/1' -d '{ 
"title": "Introduction to objects", 


"location": { «<---7EJSON 文档 中 的 一 个 对 象 


"name": "Elasticsearch in Action book", 
"address": "chapter 8" 


curl 'localhost:9200/get-together/_mapping/event -object 


?pretty' 
# expected reply: 


"get-together" : { 
"mappings": { 
"event-object" : { 
"properties" : { 


"location" : { 
"properties" : { <--- 和 根 对 象 一 样 ， 内 部 对 象 及 其 属性 的 映射 是 自 
动 识别 的 
"address" : { 
"type" : "string" 
ty 
"name" : { 
"type" : "string" 
} 
ty 
"title" : { 
"type" : "string" 
} 
} 
} 
} 
} 
} 


你 可 以 看 到 ， 内 部 对 象 有 一 个 properties 列表 ， 和 根 JSON 对 
象 一 样 。 采 用 和 根 对 象 的 同样 方式 ， 你 根据 内 部 对 象 来 配置 字段 类 
型 。 例 如 ， 可 以 升级 location.address ， 让 其 拥有 多 个 fields 


， 如 第 3 章 所 见 。 这 人 允许 你 以 不 同 的 方式 来 索引 地 址 ， 如 使 用 
not_analyzed 非 分 析 的 版 本 来 进行 精确 匹配 ， 或 者 是 默认 的 
analyzed 分 析 后 的 版 本 。 


如 果 需 要 看 看 核心 类 型 或 者 是 多 字段 的 使 用 ， 可 以 重 温 下 第 3 章 。 对 于 分 析 的 更 多 台 


入， 请 回顾 第 5 章 。 


如 果 你 有 多 个 这 样 的 对 象 所 构成 的 数组 ， 单 个 内 部 对 象 的 映射 同 
样 委 效 。 例 如 ， 如 有 果 索 引 了 下 面 的 文档 ， 代 码 清单 8-1 的 映射 将 会 保持 


不 变 。 


"title": "Introduction to objects", 
"location": [ 


"name": "Elasticsearch in Action book", 
"address": "chapter 8" 
ty 
{ 
"name": "Elasticsearch Guide", 
"address": "elasticsearch/reference/current/mapping-object - 
type.htm1" 
} 


} 1 


总 结 一 下 ， 映 射 中 的 对 象 和 对 象 数 组 的 处 理 ， 和 第 3 草 所 介绍 的 字 
段 和 数组 处 理 非常 相像 。 下 面 来 看 看 搜索 部 分 ， 这 和 你 在 第 4 章 及 第 6 
章 所 看 到 的 也 是 类 似 的 。 


8.2.2 ”在 对 象 中 搜索 


默认 地 ，Elasticsearch 无 须 预 先 定义 任何 事物 ， 就 能 识别 并 索引 拥 
有 内 部 对 象 的 层次 型 JSON 文 档 。 如 图 8-7 所 示 ， 搜 索 也 是 这 样 。 默 认 
情况 下 ， 你 需要 设置 所 查找 的 字段 路 径 ， 来 引用 内 部 对 象 ， 如 


location.name ° 


name: Introduction to Elasticsearch 

location: 
name: Chicago q=location.name:Chicago 
address: Philadelphia street 


图 8-7 ”通过 指定 字段 的 全 路 径 ， 你 可 以 搜索 一 个 对 象 的 字段 


在 第 2 章 和 第 4 章 中 ， 你 使 用 代码 样 例 来 索引 文档 。 现 在 ， 如 代码 
清单 8-2 所 示 ， 可 以 指定 location .name 的 全 路 径 将 其 作为 搜索 的 字 
段 ， 从 而 搜索 在 办 公 室 举办 的 活动 。 


代码 清单 8-2 ”代码 样 例 索 引 了 活动 之 后 ， 搜 索 这 些 活 动 的 location.name 字 段 


EVENT_PATH="localhost :9200/get-together/event" 
curl "$EVENT_PATH/_search?q=location.name:office&pretty" 
# 


reply: [...] "title": "Hortonworks, the future of Hadoop and big 
data",<---f£location 对 象 的 name 字段 上 ， 和 office 关 键 词 匹配 的 两 个 活动 
[...] "location 


": { "name 


": "SendGrid Denver 
office 


"geolocation": "39.748477, -104.998852"[...] 
"title": "Big Data and the cloud at Microsoft", 
[...] "location 


": { "name 


": "Bing Boulder 
office 


"geolocation": "40.018528, -105.275806"[... ] 


在 搜索 的 时 候 ， 采 用 对 其 他 字段 一 样 的 处 理 方式 ， 来 对 待 
location. name 这 样 的 对 象 字 段 。 这 对 于 第 7 章 所 介绍 的 聚集 而 
言 ， 同 样 适用 。 人 例如， 下面 的 terms 聚集 返回 了 location.name 
字段 中 最 为 常用 的 单词 ， 来 帮助 你 构建 一 个 单词 云 。 


% curl "localhost:9200/get-together/event/_search?pretty" -d '{ 
"aggregations" : { 
"location_cloud" : { 
"terms" : { 


"field" 


: "location.name" 


2. 对 象 最 擅 于 处 理 一 对 一 的 关系 


对 一 的 关系 是 对 象 的 完美 使 用 场景 : 你 可 以 搜索 内 部 对 象 的 字 
段 ， 就 像 它 们 是 根 文档 的 字段 一 样 。 因 为 本 就 如 此 ! 在 Lucene 的 角度 
KA, location.name 是 同 层 局 平 结构 中 的 男 一 个 字段 。 


将 对 象 放 入 数组 ， 你 还 可 以 拥有 一 对 多 的 对 象 关系 。 例 如 ， 一 个 
包含 多 位 会 员 的 分 组 。 如 采 每 位 会 员 都 有 目 己 的 对 象 ， 可 以 这 样 表 
JN: 


"members": [ 


{ 


"First_name": "Lee", 
"last_name": "Hinman" 
ty 
{ 
"first_name": "Radu", 
"last_name": "Gheorghe" 


} 


] 


你 仍然 可 以 搜索 members .first_name:1lee ， 而 且 系 统 也 会 如 
期 地 去 匹配 “Lee”。 但 是 ， 需 要 记 住 的 是 ， 在 Lucene 中 ， 文 档 的 结构 看 
上 去 是 这 样 的 : 


"members.first_name": ["Lee", "Radu"], 


"members.last_name": ["Hinman", "Gheorghe" ] 


只 有 在 一 个 字段 中 搜索 的 时 候 ， 系 统 才 能 正常 地 查询 。 如 果 搜 索 

个 字段 ， 即使 设置 了 多 个 条 件 ， 也 未 必 有 人 NETIA 4 。 假设 搜索 的 条 
(fa es nage eee gee lee AND members. 
last_name:gheorghe ， 上 面 这 个 文档 仍然 会 被 匹配 ， 因 为 它 符合 
这 两 个 条 件 。 即 使 没有 一 个 会 员 名 叫 Lee Gheorghe， 这 还 是 会 发 生 ， 
原因 就 是 Elasticsearch 将 所 有 的 东西 都 扔 进 同一 篇 文 要 ， 而 且 并 不 知晓 
MRSA 。 为 了 让 Elasticsearch 理 解 这 些 边 界 的 存在 ， 可 以 使 用 
下 面 介 绍 的 散 套 类 型 。 


在 继续 之 前 ， 
其 优势 如 下 。 


© 它们 容易 使 用 。 默 认 情 况 下 ，Elasticsearch 就 会 识别 它们 ;多数 情况 下 不 必 为 了 索引 
对 象 而 进行 任何 特殊 的 定义 。 

。 可 以 查询 和 聚集 对 象 ， 就 像 你 处 理 扁平 结构 的 文档 那样 。 这 是 因为 在 Lucene 的 层 
级 ， 它 们 就 是 扁平 结构 的 文档 。 

。 无 须 使 用 连接 (join) 。 由 于 所 有 的 内 容 都 属于 同一 篇 文档 ， 因 此 在 本 章 所 讨论 的 选 
项 中 ， 使 用 对 象 将 使 你 获得 最 佳 的 性 能 。 


其 不 足 如 下 。 
。 对象 之 间 没 有 边界 。 如 果 需 要 这 种 功能 ， 你 需要 考虑 其 他 选择 一 一 般 套 类 型 、 父 子 


关系 以 及 反 规范 化 ， 并 最 终 将 它们 和 对 象 相 结 合 ， 以 满足 你 的 需要 。 
| 。 更 新 一 个 单独 的 对 象 ， 需 要 重新 索引 整 篇 文档 。 


我 们 进行 一 个 快速 的 温习 ， 


告诉 你 为 什么 应 该 (或 不 应 该 ) 使 


3 对象 。 


8.3 ”和 骸 套 类 型 ， KEREY 


骸 套 类 型 在 映射 中 的 定义 方式 ， 和 已 经 探讨 的 对 象 类 型 非常 相 
似 。 从 内 部 来 看 ， 崩 套 的 文档 被 索引 为 不 同 的 Lucene 文 档 。 为 了 告诉 
系统 你 想 使 用 秽 套 类 型 ， 而 不 是 对 象 类 型 ， 必 须 将 type 设置 为 
nested ， 如 8.3.1 节 所 示 。 


ISDA RFA EDRG, AS EMMA WR, 
因为 索引 到 Elasticsearch 的 JSON 文 档 看 上 去 是 相同 的 。 例 如 ; 


{ 


"name": "Elasticsearch News", 
"members": [ 


"First_name": "Lee", 


"last_name": "Hinman" 


"First_name": "Radu", 
"last_name": "Gheorghe" 


在 Lucene 的 层面 ，Elasticsearch 将 根 文 档 和 所 有 的 members 会 员 
对 象 分 别 索 引 到 多 个 分 隅 的 文档 。 不 过 ， 系 统 仍然 会 将 它们 放 在 同一 
个 单独 的 分 块 (block) 中 ， 如 图 8-8 所 示 。 


name: Elasticsearch news 
first_name: Lee first_name: Radu 


last_name: Hinman last_name: Gheorghe Previous 2 documents are 
members 


图 8-8 Lucene PA SCHIRA A ITA REN RN Elasticsearch WI 


ThA TA ES HEHE, ROT TE a a 
获取 操作 次 数 最 少 。 


既然 你 已 经 了 解 了 嵌 套 文档 是 怎样 工作 的 ， 下 面 看 看 如 何 通过 
Rasticsearch 来 使 用 它们 必须 在 索引 和 搜索 阶段 都 指定 它们 是 认 


。 2 以 确保 它们 索引 为 同 个 分 块 中 的 不 
。 在 搜索 的 时 候 ， 必 须 使 用 肉 套 查询 和 过 滤 此 来 利用 分 块 。 
接 下 来 的 两 个 部 分 将 讨论 如 何 做 到 这 两 点 。 


8.3.1 WWR REM 


FRERRN FT RRA BERBERS, Mi type 不 是 object ， 
而 必须 是 nested 。 代 码 清单 8-3 将 定义 一 个 拥有 nested type F 
段 的 映射 ， 并 索引 一 篇 包含 藤 套 对 象 数组 的 文档 。 


代码 清单 8-3 ”映射 并 索引 嵌 套 文档 


curl -XPUT localhost:9200/get-together/_mapping/group-nested -d '{ 
"group-nested": { 
"properties": { 
"name": { "type": "string" }, 
"members": { 
"type": "nested", 


=---- 这 里 告诉 Elasticsearch 将 会 员 对 象 索引 到 同一 个 分 块 中 的 不 同文 档 中 
"properties": { 
"first_name": { "type": "string" }, 
"last_name": { "type": "string" } 


curl -XPUT localhost :9200/get-together/group-nested/1 
"name": "Elasticsearch News", <---iX*S/BYEREAE IM 
"members": [ 


"First_name": "Lee", <--- 这 些 对 象 存 入 自己 的 文档 
的 一 个 分 块 
"last_name": "Hinman" 


ty 


"first_name": "Radu", 
"last_name": "Gheorghe" 


WR Sis 28-3225 WIERK, HA ER ISONW RT 
许 你 使 用 nested Ais wea ei RET] -RARI AER IK HE 


R, ASHE BIEN, PRE AIRE LL IR ESA 
之 内 搜索 。 举 例 来 说 ， 可 以 搜索 名 为 "Lee” 且 姓 为 "Hinman” 的 分 组 会 
员 。 骨 套 的 查询 不 会 进行 跨 多 个 对 象 的 匹配 ， 因 此 避免 了 名 为 “Lee” 而 
姓 为 “Gheorghe” 这 样 的 意外 匹配 。 


1. 开局 跨 对 象 的 匹配 
某 些 场合 下 ， 可 能 还 需要 跨 多 个 对 象 的 匹配 。 在 8.1.1 节 我 们 讨论 


了 普通 的 JSON 对 象 ， 假 设 你 正在 这 些 对 象 中 搜索 同时 包含 Lee 和 Radu 
会 员 的 分 组 ， 下 面 这 样 的 查询 也 会 奏效 : 


"members.first_name": "lee" 


"term": { 
"members. first _name": "radu" 


之 所 以 能 正确 运行 ， 是 因为 全 部 内 容 痢 在 同一 篇 文档 中 ， 两 个 条 
件 都 会 满足 。 


而 对 于 肉 套 文档 ， 这 样 结构 的 查询 不 会 奏效 ， 因 为 members 对 象 
将 存储 在 分 离 的 铬 干 Lucene 文 档 中 。 没 有 一 个 members 对 象 可 以 同时 
满足 两 个 条 件 : 有 一 篇 包含 了 Lee， 另 一 篇 包含 了 Radu， 但 是 没有 一 
篇 同时 包含 了 两 者 。 


这 种 情况 下 ， 你 可 能 希望 同时 拥有 两 者 ， 文 持 跨 对 象 匹 配 的 对 象 
类 型 ， 以 及 避免 跨 对 象 匹 配 的 葡 套 文档 。Elasticsearch 让 你 可 以 通过 几 


个 映射 的 选项 来 实现 这 个 愿望 : include_in_root 和 
include_in_parent 。 


2. Include_in_root 


include_in_root JJA RERIT, A BA members 对 象 被 
elas 一 次 作为 姐 套 文档 ， 一 次 作为 根 文 档 中 的 对 象 类 型 ， 如 图 
8-9PTZR ° 


name: Elasticsearch news 
first_name: Lee first_name: Radu members. first_name: [Lee, Radu] 
last_name: Hinman last_name: Gheorghe members.last_name: [Hinman, Gheorghe] 


Previous 2 documents are members 


图 8-9 i#include_in_rootit, KRENMMMFRELARA I BR 


FERRIER a EDT RENERE, Me PST 
象 匹配 时 使 用 普通 查询 : 


"members": { 
"type": "nested", 
"include_in_root": 


true, 


"properties": { 
"first_name": { "type": "string" }, 
"last_name": { "type": "string" } 
} 
} 


3. Include_in_parent 


Elasticsearch RF MAA Z NERA KES ° SAF, DH 
ASAMREST ES, Mentha Wea cre, Wi TAH 
评价 。 图 8-10 展 示 了 这 种 层级 关系 。 


first_name: Lee 
date: 2014-10-18 last_name: Hinman name: Elasticsearch news 


first_name: Radu 
comment: hello.world comments. date: 2014-10-18 一 
comments.comment: hello world last_name: Gheorghe aunty documen 


include_in_parent 


Previous doc is a comment 


图 8-10 include_in_parent’—“ ne SCA Ft 5 | BI T RITA h 


有 了 刚刚 所 见 的 jnclude_in_root 选项 ， 你 可 以 将 任何 一 层 的 
字段 加 入 到 根 文档 之 中 (在 我 们 的 例子 中 ， 束 是 祖父 佛 ) 。 还 有 一 个 
include_in_parent 选项 ， 它 允许 你 将 某 个 藤 套 文档 的 字段 索引 到 
最 近 的 父 寿 文 档 中 。 例 如 ， 代 码 清单 8-4 将 comments 字段 的 内 容 也 
放 入 了 members 文档 。 


代码 清单 8-4， 当 有 多 个 租 套 层级 时 ， 使 用 iclude_in_parent 


curl -XPUT localhost:9200/get-together/_mapping/group-multinested 
-d '{ 
"group-multinested": { 
"properties": { 
"name": { "type": "string" }, 
"members": { =--- 相 对 于 根部 的 group RRA, members EMEX 
档 ， 这 里 没有 使 用 include 选项 
"type": "nested", 


"properties": { 
"first_name": { "type": "string" }, 
"last_name": { "type": "string" }, 
"Comments": { <---ixX#comments members AYRE eo HAA 
被 索引 为 父辈 members 文档 的 对 象 


"type": "nested", 


"include_in_parent": true, 


"properties": { 


"date": { 

"type": "date", 

"format": "dateOptionalTime" 
ty 
"comment": { "type": "string" } 


} 


ME, TERTA TREO RHO © BIER FTE 
讲述 的 。 


8.3.2 RRNRRRE 


FARIS, CREA ESITRRMRERN, ina Ze Tes At 
FE FQ AIM Re REA oc i Hnested 查询 、 过 滤器 和 聚集 可 以 帮 
助 你 实现 这 个 和 需求。 运行 这 些 特殊 的 查询 和 聚集 ， 将 促使 Elasticsearch 
连接 在 同一 个 分 块 中 的 多 个 Lucene 文 档 ， 并 将 连接 后 的 结果 数据 看 作 
普通 的 Elasticsearch 文 档 。 

这 种 在 舱 套 文档 内 进行 搜索 的 方法 ， 使 用 了 nested 查询 和 
nested 过 小 。 如 第 4 章 所 示 ， 这 些 查 询 和 过 小 之 间 除 了 常规 的 差异 ， 
其 他 都 是 相当 的 。 差 异 在 于 : 


。 EMT AST HY ， 所 以 它们 能 够 返回 按照 相关 性 得 分 所 排列 的 


HR; 
。 过 滤 万 并 不 计算 得 分 ， 所 以 运行 更 快 ， 缓 存 更 容易 。 


日 
q 


默认 是 不 缓存 的 。 和 所 有 的 过 滤器 一 样 ， 可 以 修改 


特别 要 注意 的 是 ，nested 过 滤器 
_cache 选项 ， 将 其 设置 为 true。 


如 条 你 想 在 符 套 的 字段 上 运行 聚集 (例如 ， 找 出 最 活跃 的 分 组 会 
员 ) ， 需 要 将 它们 封装 在 nested 聚集 中 。 如 果子 聚集 必须 引用 父 厘 


的 Lucene 文 档 ， 就 像 为 每 位 会 员 展 示 排 名 靠 前 的 分 组 标签 那样 ， 可 以 
使 用 reverse_nested 逆 癌 聚集 来 同上 访问 层级 结构 。 


1. Nested 查询 和 过 滤器 


当 运 行 hested 查询 或 者 过 滤器 时 ， 你 需要 指定 path 参数 ， 告 诉 
Elasticsearch 这 些 舱 套 对 象 位 于 哪里 的 Lucene 分 块 中 。 除 此 之 外 ， 
nested 查询 或 者 过 渡 器 将 会 分 别 封装 一 个 常规 的 查询 或 者 过 滤 絮 。 
代码 清单 8-5 将 搜索 名 为 “Lee”、 姓 为 “Gheorghe” 的 会 员 ， 你 会 看 到 代 
码 清单 8-3 索 引 的 文档 不 会 匹配 上 ， 原 因 是 只 有 Lee Hinman 和 Radu 
Gheorghe， 而 没有 会 员 的 名 字 是 Lee Gheorghe ° 


代码 清单 8-5” 峰 套 查询 的 例子 


curl 'localhost:9200/get-together/group-nested/_search?pretty' -d 
'{ 
"query": { 
"nested": { 
"path": "members", 


--- -members FÆRRE 

"query" g { —-- -通常 你 在 同一 篇 文档 中 的 对 象 上 运行 查 
"bool": { 
"must": 


"term": { 
"members.first_name": "lee" 


}, 
{ 
"term": { 
"members.last_name": "gheorghe" -~---- 没 有 名 字 为 Lee 
Gheorghe 的 会 员 ， 将 这 个 查询 条 件 改 为 ninman， 就 会 匹配 上 Lee Hinman 


HIHIH 


} 1 


一 个 nested 过 滤器 和 nested 查询 看 上 去 是 一 样 的 。 只 需要 将 
天 键 词 query 替换 为 filter 。 


2. 在 多 个 同 套 层级 上 搜索 


Elasticsearch 也 允许 你 拥有 多 级 的 藤 套 。 例 如 ， 回 到 代码 清单 8- 
4， 所 添 加 的 映射 在 两 个 层面 上 都 鹏 套 : 会 员 (members) 和 他 们 
的 评论 (comments) 。 为 了 在 内 藤 的 评论 文档 中 搜索 ， 需 要 指定 
members.comments 的 路 径 ， 如 代码 清单 8-6 所 示 。 


代码 清单 8-6 ”索引 和 搜索 多 级 散人 套 文 档 


curl -XPUT localhost:9200/get-together/group-multinested/1 -d '{ 
"name": "Elasticsearch News", 
"members": { 
"first_name": "Radu", 
"last_name": "Gheorghe", 
"comments": { <--- 如 清单 8-4 所 配置 
多 个 评论 对 象 又 峰 套 在 会 员 对 象 之 中 
"date": "2013-12-22", 
"comment": "hello world" 


} 


1 


curl 'localhost:9200/get-together/group-multinested/_search' -d '{ 
"query": { 
"nested": { 
"path": "members.comments", 


--- -查找 位 于 members 之 中 的 comments 字段 
"query": { 
"term": { 
"members.comments.comment": "hello" 


-- - -查询 仍然 提供 了 字段 的 全 路 径 用 于 查找 
} 


3. 整合 娩 套 对 象 的 得 分 


一 个 nested 查询 会 计算 得 分 ， 不 过 我 们 尚未 提 及 如 何 计 算 。 假 
设 一 个 分 组 中 有 3 位 会 员 : Lee Hinman ` Radu Gheorghe 和 另 一 个 叫 作 
Lee Smith 的 人 。 如 果 运 行 “Lee” 的 nested 查询 ， 它 会 匹配 上 两 位 会 


员 。 根 据 和 碍 询 条 件 的 匹配 程度 ， 每 个 内 部 会 员 文 档 会 获得 目 己 的 得 

分 。 但 是 ， 来 自 应 用 的 查询 是 为 了 查找 分 组 文档 ， 所 以 Elasticsearch 需 
要 为 整个 分 组 文档 给 出 一 个 得 分 。 在 这 一 点 上 ， 一 共有 4 种 选项 ， 通 过 
score_mode 来 设置 。 


。 avg 一 一 这 是 默认 的 选项 ， 系 统 获取 所 有 匹配 的 内 部 文档 之 分 
数 ， 并 返回 其 平均 分 。 

e total 系统 获取 所 有 匹配 的 内 部 文档 之 分 数 ， 将 其 求 和 并 返 
回 。 当 死 配 的 数量 值得 考虑 时 ， 这 一 点 很 有 用 处 。 

e max 一 一 返回 匹配 的 内 部 文档 之 最 大 得 分 。 

e none A E RSC EOI EAT, MRE S AST ARBEIT 
的 得 分 。 
如 果 觉 得 在 根 文 本 和 父辈 中 包含 众 套 类 型 以 及 得 分 计算 有 太 多 的 

请 参考 表格 8-1， 它 列 出 了 所 有 的 选项 ， 以 及 它们 何 时 能 发 挥 作 


表 8-1 RERA HAM 


对 于 "first_name:Lee AND last_name: Hinman" 

y2 ay = = Coy LIN > 

| 这 个 查询 你 需要 骸 套 类 型 ， 而 对 

include_in_parent: true zx : $ ais 
OC Æ 于 "first_name:Lee AND first_name: Radu" Æ 


询 ， 你 需要 对 象 类 型 


和 之 前 的 场景 一 样 ， 不 过 你 有 多 个 层级 ， 例 


如 event>members>comments 


include_in_root:true 


score_mode: avg KENT | 搜索 举办 Flasticsearch 活 动 的 


score_mode: total SAS F 搜索 举办 Elasticsearch 术 


score_mode: max ie 搜索 举办 顶级 Elasticsearch 活 动 的 


过 滤 举 办 Elasticsearch 活 动 的 分 组 。 也 可 以 使 
| REE as 


score_mode: none 


4. 获知 哪些 内 部 文档 匹配 上 了 


当 你 索引 骸 套 了 很 多 子 文档 的 大 型 的 文档 时 ， 可 能 会 好 奇 对 于 给 
TERE A, AERIS Slay 在 当前 的 例子 中 ， 职 
是 哪些 分 组 会 员 匹 配 了 寻找 first_name 为 lee 的 查询 。 在 版 本 1.5 
的 Elasticsearch 中 ， 可 以 在 蔡 套 查询 或 过 滤 需 中 添加 一 个 inner_hits 
对 象 ， 来 展示 匹配 上 的 胡 套 文档 。 职 像 主 搜索 请 求 那样 ， 它 也 文 持 
from 和 size 这 样 的 选项 。 


"query": { 
"nested": { 

"path": "members", 

"query": { 
"term": { 

"members. first _name": "lee" 

} 

}, 


"inner_hits": { 


"from": 0, 


对 于 每 篇 匹配 的 文档 ， 返 回 的 内 容 都 将 包含 一 个 inner_hits 对 
人 不 同 在 于 其 中 的 每 篇 文档 都 是 藤 套 


"_source":{ 
"name": "Elasticsearch News", 
Linn 
"inner_hits" : { 
"members" : { 
"hits" : { 
"total" : 1, 
"max_score" : 1.4054651, 
"hits" : [ { 
"index" : "get-together", 
"type" : "group-nested", 
" id" z TES 
"_nested" : { 
"field" : "members", 
"offset" : 0 
}, 


"score" : 1.4054651, 
"source": {"first_name":"Lee", "last_name":"Hinman"} 
} ] 
} 


”| 

要 识别 子 文档 ， 可 以 查看 _nested 对 象 。 其 中 field FREI 
套 对 象 的 路 径 ， 而 offset 显示 了 风 套 文档 在 数组 中 的 位 置 。 这 个 例 
子 中 ，Lee 是 查询 结果 中 的 第 一 位 member 。 


5. REKHA 


在 很 多 例子 中 ， 你 按照 得 分 来 排列 根 文 要 ， 但 是 也 可 以 按照 内 舰 
文档 的 数值 来 排列 它们 。 这 和 第 6 章 所 介绍 的 按 其 他 字段 排序 是 类 似 
的 。 举 个 例子 ， 如 果 有 一 个 价格 信息 收集 站 点 ， 产 品 是 根 文 档 ， 而 来 
目 不 同 商铺 的 报价 是 其 内 般 的 文 要 ， 那 么 你 束 可 以 按照 最 低 价格 来 排 
序 。 和 之 前 的 Score_mode 选项 类 似 ， 可 以 指定 mode 选项 为 min ` 
max ` sum 或 者 avg ， 来 处 理 舱 套 文档 的 数值 ， 并 将 处 理 结 采 作为 根 
文档 的 排序 值 : 


"sort": [ { 
"offers.price": { 
"mode": "min", 
"order": "asc" 


Elasticsearch 很 聪明 ， 知 道 offers.price 位 于 offers 对 象 中 (如 果 在 映 
射 中 是 这 么 定义 的 )  ， 就 会 访问 骸 套 文档 的 price 价 格 字 段 用 于 排序 。 


6. REME HRERR 


WS FERRERA AT REUTERS, AE Anested RE ° jX 
Fe SS Se Se, TEP AREAS RAT EI RETR ZB 
径 。 如 图 8-11 所 示 ，nested Fae (HElasticsearchiHt{y T VRANE 
接 ， 以 确保 其 他 聚集 在 指定 路 径 上 能 正常 地 运作 。 


分 组 1 
(前 面 两 个 是 会 员 ) 


| 


分 组 1: Radu Gheorghe 


分 组 1: Lee Hinman 


图 8-11 ”和 藤 套 聚集 执行 了 必要 的 连接 ， 让 其 他 聚集 可 以 运行 在 指定 的 路 径 上 


例如 ， 为 了 获得 参与 分 组 最 多 的 活跃 用 户 ， 通 常会 在 会 员 名 称 字 
段 上 运行 一 个 terms 聚集 。 如 果 这 个 name 字段 存储 在 通 套 类 型 的 
member 对 象 中 ， 那 么 需要 将 terms 聚集 封装 在 nested 聚集 中 ， 并 
将 该 聚集 的 路 径 path 设置 为 会 员 members : 


% curl "localhost:9200/get-together/group/_search?pretty" -d '{ 


"aggregations" : { 
"members" : { 
"nested" : { 
"path" : "members" 
}, 
"aggregations" : { 
"frequent_members" : { 
"terms" : { 


"field" : "members.name" 


你 可 以 在 members ik PS REWEERE, MARSH, mA 
Elasticsearch 知 道 如 何在 members 类 型 中 进行 查找 来 完成 其 他 的 聚 


焦 


还 有 些 情况 下 ， 需 要 反 向 访问 父 理 或 者 根 文档 。 例如， 你 硕 望 针 
对 活跃 会 员 ， 展 示 他 们 参加 最 多 的 分 组 之 tags 。 为 了 实现 这 一 点 ， 
你 将 使 用 reverse_nested 聚集 ， 它 会 告诉 Elasticsearch 在 艇 套 层 级 


中 辣 上 返回 查找 : 


"frequent_members" : { 
"terms" : 
"field" : "members.name" 
ty 
"aggregations": { 
"back_to_group": { 
"reverse_nested": {}, 


"aggregations": { 
"tags _per_member": { 


"terms": { 
"field": "tags" 


Nested 和 reverse_nested 聚集 可 以 快速 地 告诉 
Elasticsearch， 在 哪些 Lucene 文 档 中 查找 下 一 项 聚集 的 字段 。 这 赋予 你 


了 足够 的 灵活 性 ， 让 第 7 章 所 介绍 的 所 有 聚集 类 型 ， 不 仅 可 以 用 于 对 象 
类 型 ， 还 可 以 用 于 般 套 文档 。 这 种 灵活 性 的 唯一 缺 总 是 性 能 会 有 所 下 


降 。 
7. 考虑 性 能 


第 10 章 将 讨论 更 多 关于 性 能 的 细节 问题 ， 不 过 总 体 上 来 讲 ， 你 可 
以 预见 花 套 查 询 和 聚集 会 比 拥有 同等 功能 的 对 象 类 型 更 慢 。 原 因 是 
Elasticsearch 需 要 进行 额外 的 工作 来 连接 同一 个 分 块 中 的 多 篇 文档 。 但 
是 ， 如 果 确 实 需 要 完全 连接 多 个 单独 的 Elasticsearch， 这 些 查 询 和 聚集 
已 经 比 原本 提速 了 很 多 ， 原 因 是 Elasticsearch 使 用 了 分 块 的 底层 实现 。 


这 种 分 块 的 实现 也 有 其 缺点 。 由 于 秽 套 的 文档 都 捆绑 在 一 起 ， 更 
新 或 者 添加 一 篇 内 部 文档 需要 将 整个 集合 都 进行 重新 索引 。 应 用 程序 
也 可 以 使 用 单个 JSON 中 的 多 个 藤 套 文档 。 


如 琳 你 区 套 的 文档 变 得 很 大 ， 束 像 get-together 站 点 的 例子 那样 ， 
将 每 组 作为 一 篇 文档 ， 然 后 分 组 所 有 的 活动 作为 其 内 磐 文档， 那么 更 
好 的 选择 可 能 是 使 用 单独 的 Elasticsearch 文 档 ， 然 后 定义 它们 之 间 的 父 


十 么 应 该 (或 不 应 该 ) ARES o HRA 


在 继续 之 前 ， 我 们 快速 总 结 
如 下 。 


。 MERA RADA: 不 再 会 匹配 “Radu Hinman” J ! 

。 TEE LT REN ZI, UREA SEP ICH, PRR SIT RABE © 

。 REA MAR AS OER, A DEX SRA LIB Te 
询 。 本 章 所 描述 的 其 他 选择 并 不 提供 这 项 特性 。 
。 在 查询 阶段 的 连接 是 很 快速 的 ， 因 为 组 成 Elasticsearch 文 档 的 所 有 Lucene 文 档 ， 都 是 
放 在 同一 分 段 中 的 同一 分 块 中 。 
。 如 果 需 要 ， 可 以 在 父辈 中 包含 子 文档 ， 来 获得 对 象 类 型 的 所 有 功能 。 这 些 功 能 对 于 
必用 而 言 是 透明 的 。 


下 ， 你 为 


。 查询 比 相应 的 对 象 要 慢 。 如 果 对 象 提供 了 你 所 需 的 全 部 功能 ， 那 么 它 将 是 更 好 的 选 
择 因为 其 速度 更 快 。 
ST 需要 


新 索引 整 篇 文档 。 
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在 Elasticsearch 中 ， 摘 述 数据 间 关 系 的 另 一 种 选择 是 将 某 个 类 型 定 
义 为 同 索 引 中 另 一 个 类 型 的 子 寿 。 当 我 们 需要 经 党 更 新 文档 或 其 间 关 
系 的 时 候 ， 这 个 选择 就 非常 有 用 了 。 在 映 时 中， 要 通过 _parent 字段 
来 定义 天 系 。 举 个 例子 ， 你 可 以 参考 本 书 代 码 样 例 中 的 mapping.json 文 
件 ， 其 中 活动 (event) 是 分 组 (group) 的 子 墓 ， 如 图 8-12 所 示 。 


一 旦 在 映射 中 定义 了 这 种 关系 ， 吏 可 以 开始 索引 文档 了 。 父 曹 
(本 例 中 的 分 组 文档 ) 按照 正常 的 方式 索引 。 对 于 子 辈 而 言 (本 例 中 
的 活动 ) ， 需 要 在 _parent 字段 中 指定 父辈 的 ID。 这 主要 将 活动 指向 
它 的 分 组 ， 并 人 允许 你 搜索 包含 满足 某 些 条 件 的 活动 之 分 组 ， 或 者 反 
之 ， 如 图 8-13 所 示 。 


get-together 


活动 
分 组 
_parent: group 


图 8-12 ”活动 和 分 组 之 间 的 关系 定义 在 映射 (mapping) 中 


get-together 


图 8-13 ”每 个 子 文档 的 _parent 字 段 都 指向 了 其 父辈 的 _ id 字段 


MREDEH, TTR ARETE AE RY o EREN 
文档 中 ， 实 际 情况 是 所 有 内 部 的 对 象 是 集中 在 同一 个 分 块 中 的 Lucene 
文档 ， 这 对 于 对 象 便捷 地 连接 到 根 文档 而 言 ， 是 非常 有 好 人 处 的 。 父 非 
a ee aa oe 
ae 7% 5%% o 


对 于 文档 的 索引 、 更 新 和 删除 而 言 ， 父 子 的 方式 就 显得 出 类 拔 革 
了 。 这 是 因为 父 音 和子 境 文 档 都 是 独立 的 Elasticsearch 文 档 ， 各 目 管 
理 。 举 例 来 说 ， 如 果 一 个 分 组 有 很 多 活动 ， 而 你 要 增加 一 个 新 活动 ， 
那么 就 是 增加 一 篇 新 的 活动 文档 。 如 果 使 用 骸 套 类 型 的 方式 ， 
Elasticsearch 不 得 不 重新 索引 分 组 文档 ， 来 赛 括 新 的 活动 和 全 部 现 有 活 
BY, IX SUMS TS o 
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引 。 如 果 有 许多 新 文档 ， 并 且 希 鹿 异 步 地 索引 它们 ， 那 么 这 个 特性 就 
很 有 用 处 。 例 如 ， 你 在 索引 站 点 上 用 户 创建 的 活动 和 这 些 用 户 。 活 动 
可 能 是 来 源 于 你 的 日 志 系统 ， 而 用 户 可 能 是 从 数据 库 同步 而 来 。 你 没 
有 必要 担心 在 索引 某 个 活动 之 前 ， 其 父 春 的 用 户 是 否 已 经 存在 。 即 使 
该 用 户 不 存在， 系统 还 是 会 继续 索引 用 户 所 创建 的 活动 。 


m (Foe, RARER EMTEC? 下 面 来 探讨 一 


8.4.1 于 文档 的 索引 、 更 新 和 删除 


由 于 父 文档 的 索引 和 其 他 文档 索引 方式 相同 ， 这 里 只 用 考虑 子 文 
档 。 子 文档 必须 通过 parent 字段 ， 指 向 它们 的 父辈 。 


文档 的 父辈 也 可 以 是 另 一 个 类 型 的 子 辜 。 你 可 以 拥有 多 层 的 父子 关系 ， 就 像 嵌 和 套 类 型 
那样 。 你 甚至 可 以 组 合 使 用 父子 关系 和 髓 套 类 型 。 例 如 ， 一 个 分 组 的 会 员 是 按照 父 套 类 型 
来 存储 ， 而 分 组 的 活动 被 单独 存储 为 子 文档 。 


对 于 子 文档 ， 需 要 在 映射 中 定义 _parent 字段 ， 在 索引 的 时 候 ， 
必须 在 _parent 字段 中 指定 父 春 的 ID。 父 奉 的 人 D 和 类 型 也 将 作为 子 


32 HIER HÉ ° 


你 可 能 还 记得 第 2 章 中 ， 我 们 介绍 了 默认 情况 下 索引 的 操作 如 何 分 发 到 分 片 : 索引 的 
每 篇 文档 都 有 一 个 ID， TEDATA 处 理 。 与 此 同时 ， 索 引 的 每 个 分 片 有 一 个 散 列 的 
fe 能 就 包括 了 文档 的 ID 散 列 值 。 索 引 的 文档 就 会 分 发 到 散 列 范围 包含 该 文档 ID 
He A] ZL. 


散 列 的 ID 被 称 为 路 由 值 (routing value) ， 而 将 文档 分 配 到 某 个 分 片 的 过 程 称 为 路 由 
(routing) 。 由 于 每 个 ID 都 不 同 ， 而 且 你 对 其 进行 了 散 列 处 理 ， 所 以 默认 的 路 由 机 制 将 文 
档 均 匀 地 分 配 到 不 同 的 分 片上 。 


你 也 可 以 使 用 定制 路 由 值 。 第 9 章 将 深入 定制 路 由 使 用 的 细节 。 其 基本 的 想法 是 
Elasticsearch 散 列 定制 的 路 由 值 ， 而 不 是 文档 的 ID 来 确定 文档 所 属 分 片 。 当 你 希望 确保 多 个 
文档 在 同一 个 分 片 时 ， 最 好 使 定制 路 由 。 让 这 些 文档 拥有 同样 的 路 由 值 ， 那 么 散 列 之 后 
总 是 能 产生 同样 的 散 列 值 ， 并 最 终 被 分 配 到 同样 的 分 片上 。 


在 搜索 的 时 候 ， 定 制 路 由 非常 有 用 。 这 是 因为 你 可 以 在 查询 中 提供 一 个 路 由 值 。 如 此 
操作 后 ，Elasticsearch 只 会 访问 拥有 对 应 路 由 值 的 分 片 而 不 是 查询 所 有 的 分 片 。 这 会 大 幅 
降低 集群 的 负载 ， 而 且 通 常用 于 将 每 位 用 户 的 文档 集中 在 一 起 。 


_parent 字段 向 Elasticsearch 提 供 了 父 文档 的 ID 和 类 型 ， 这 使 得 Elasticsearch 将 子 文档 
路 由 到 父 文档 同样 的 散 列 。 实 质 上 来 看 ，_parent 就 是 一 个 路 由 值 ， 搜 索 的 时 候 你 就 能 从 
中 获 益 。Elasticsearch 会 自动 地 使 用 这 个 路 由 值 来 查询 父 埋 的 分 片 并 获得 其 子 辈 ， 或 者 是 查 
询 子 辈 的 分 片 来 获得 其 父辈 。 


E 


TEN 
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的 了 分 片 上 。 搜 索 的 时 候 ，Elasticsearch 所 需要 处 理 的 全 音 LF RIED A 
生 在 同一 个 节点 上 。 AUEREN GF SCS ARIEL A Ce ERs & 
路 由 的 另 一 层 含 义 是 ， 在 更 新 或 者 删除 子 文档 的 时 候 ， 需 要 指定 
_parent 字段 。 


下 面 来 看 看 如 何 实际 操作 这 些 。 


。 在 映射 中 定义 _parent FR ° 
。 通过 设置 parent 字段 ， 索 引 、 更 新 和 删除 子 文档 。 


1. 上 映射 


代码 清单 8-7 展 示 了 代码 样 例 中 events 映射 的 相关 部 分 。 其 中 ， 
_parent 字段 指向 了 父辈 的 类 型 (本 例 中 是 group ) 。 


代码 清单 8-7 (USEPA AY_parentibe 4t 


# from mapping.json 


"event" : { <--- 活 动 类 型 的 映射 从 这 里 
"source" : { 
"enabled" : true 


"enabled" : false 


ty 


"parent" : { 


- - -父辈 指向 分 组 类 型 
"type" g "group" 


了 


"properties" : { <。--- 活 动 


2. 索引 和 检索 


映射 就 绪 之 后 ， 束 可 以 开始 索引 文档 了 了 人。 为 了 这 些 文 档 ， 需 要 在 
URI 中 放置 parent 值 作为 参数 。 对 于 你 的 活动 而 言 ，parent 值 是 它 
们 所 属 分 组 的 文档 ID， 例 如 ，Elasticsearch Denver 分 组 的 ID 是 2 : 


% curl -XPOST 'localhost:9200/get-together/event/1103?parent=2' -d 
1 


"host": "Radu, 


"title": "Yet another Elasticsearch intro in Denver" 


} 1 


这 个 _parent 字段 是 被 存储 的 ， 因 此 可 以 稍 后 来 检索 其 内 容 。 同 
时 ， 这 个 字段 也 是 被 索引 的 ， 这 样 你 可 以 通过 条 件 来 搜索 其 值 。 如 果 
查询 作为 分 组 的 _parent 内 容 ， 你 将 看 见 映 射 中 定义 的 类 型 ， 以 及 过 
引 时 所 指定 的 分 组 ID 。 


为 了 检索 一 篇 活动 文档 ， 这 里 运行 了 一 个 普通 的 索引 请 求 ， 而 且 
必须 指定 _parent 值 : 


% curl 'localhost:9200/get-together/event/1103?parent=2 


&pretty' 


"index" : "get-together", 

"type" : "event", 

"id" : "1103", 

"_ version" : 1, 

"found" : true, "source" : { 

"host": "Radu", 

"title": "Yet another Elasticsearch intro in Denver" 


} 


tH parent 值 是 必需 的 ， 原 因 在 于 你 拥有 多 项 属于 不 同 分 组 的 
活动 ， 它 们 的 ID 是 有 重复 的 。 但 是 ，_parent 和 _id 的 组 合 是 唯一 
的 。 如 果 试 图 在 不 指定 父 佛 的 情况 下 获取 子 文 档 ， 系 统 会 返回 一 个 错 
误 提 示 ， 告 诉 你 需要 一 个 路 由 值 。 而 _parent 值 正 是 Elasticsearch 所 
等 待 的 路 由 值 : 


% curl 'localhost:9200/get-together/event/1103?pretty' 
{ 


"error" : "RoutingMissingException[routing is required 


for [get-together]/ 
[event]/[1103]]", 
"status" : 400 


3. 更 新 


可 以 使 用 更 新 的 API 来 更 新 子 文档， 方式 和 3.5 节 所 介绍 的 类 似 。 
队 一 的 区 别 在 于 ， 这 里 必须 再 次 提供 父 幸 。 在 检索 活动 文档 的 案例 
中 ， 需 要 父 这 来 获取 路 由 值 ， 然 后 使 用 该 值 来 改变 活动 文档 。 否 则 ， 


你 仍然 会 碰 到 RoutingMissingException 异常 ， 这 和 早 前 检索 文 
档 时 不 指定 父 磋 所 抛 出 的 异常 是 一 样 的 。 


作为 样 例 ， 下 面 的 代码 片段 为 刚刚 索引 的 文档 增加 了 一 个 摘 述 ， 
其 中 指定 了 父 辜 的 ID 为 2: 


curl -XPOST 'localhost:9200/get -together/event/1103/_update? 
parent=2' 


-d '{ 
"doc": { 
"description": "Gives an overview of Elasticsearch" 


} J 


A. 删除 


TS BR IEC, TrA.. P PR RK, FE 
加 上 parent 父辈 参数 : 


curl -XDELETE ‘localhost :9200/get -together/event/1103?parent=2' 


通过 得 询 来 进行 的 删除 ， 和 以 前 一 样 运作 : DAC ECR ce 
除 。 这 个 API 无 须 父 辜 的 值 ， 而 且 也 不 会 考虑 这 个 值 : 


curl -XDELETE 'http://localhost :9200/get-together/event/_query? 
q=host:radu' 


说 到 查询 ， 让 我 们 看 看 如 何 搜索 父 于 关系。 


8.4.2 ”在 父 文档 和 子 文档 中 搜索 


有 了 分 组 和 活动 这 样 的 父子 天 系 ， 束 可 以 使 用 活动 的 条 件 来 搜索 
分 组 ， 肥 之 炙 然 。 来 看 看 将 要 使 用 的 查询 和 过 滤 事 。 


。 使 用 子 辈 的 条 件 来 搜索 父辈 的 时 候 ，has_chi1d 查询 和 过 滤器 
是 很 有 用 处 的 。 例 如 ， 你 需要 搜索 举办 Elasticsearch 活 动 的 分 组 。 

。 使 用 父 章 的 条 件 来 搜索 子 辜 的 时 候 ，has_parent 查询 和 过 滤 需 
是 很 有 用 处 的 。 例 如 ， 当 地 理 位 置 是 分 组 的 属性 时 ， 搜 索 Denver 
地 区 举办 的 活动 。 


1. has_child 查 询 和 过 滤器 


如 果 想 搜索 举办 Elasticsearch 活 动 的 分 组 ， 可 以 使 用 has_child 
的 查询 或 过 小 器 。 两 者 典型 的 差异 就 在 于 过 滤器 并 不 关心 文档 的 得 
ZN 
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一 个 has_child 过 滤 慷 可 以 封装 另 一 个 过 滤 硕 或 查询 。 它 会 在 
指定 的 子 辜 类 型 上 运行 过 滤器 或 查询 ， 并 收集 匹配 的 文档 。 匹 配 上 的 
子 文档 之 _parent 字段 包含 其 父 寿 的 ID。Elasticsearch 收 集 这 些 父 肆 
的 ID， 然 后 删除 元 余 的 部 分 一 一 这 是 因为 父 幸 ID 针对 每 个 子 埋 出现 一 
次 ， 最 终 可 能 会 导致 某 个 父 佛 ID 出 现 多 次 ， 并 且 返 回 父 菲 文 档 的 列 
表 。 所 有 的 流程 如 图 8-14 所 示 。 


在 该 图 的 第 一 阶段 ， 发 生 了 下 面 的 操作 。 
。 应 用 程序 运行 了 has_child 过 小 器 ， 要 求 分 组 文档 的 子 硬 必 须 


是 event 类 型 ， 而 且 活 动 标 题 里 要 包 全 “Flasticsearch” 的 关键 词 。 
过 滤 圳 运行 于 event 类 型 之 上 ， 查 找 匹 配 了 “Elasticsearch” 的 文 
档 。 


结 采 集中 的 event 文档 指 癌 它们 相应 的 父 幸 。 多 个 活动 可 以 指 问 


同一 个 分 组 。 


在 第 二 阶段 ，Elasticsearch 收 集 了 所 有 的 唯一 分 组 文档 ， 并 将 它们 
返回 给 应 用 程序 。 


Al8-14A ier EA eI AY: 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"filtered": { 
"filter": { 
"has child": { 


"type" : "event", 


"filter": { 
"term": { 
"title": "elasticsearch" 


Has_child 查询 和 这 个 过 滤器 HEAT Jy AA 差不多 ， 不 过 它 可 以 
通过 又 集 子 文档 的 得 分 ， 对 每 个 父 理 进行 评分 。 你 可 以 将 
score_mode 设置 为 nax ` sum 、 avg 或 者 none ， 和 骸 套 查询 是 一 


样 的 。 


Has_child 过 滤器 可 以 封装 一 个 过 滤器 和 查询 ， 而 has_child 查询 只 能 封装 另 一 个 


= EHA 
查询 。 


第 一 阶段 : 查询 子 文档 


get-together 


搜索 举办 


Elasticsearch 


(分 组 的 has_ 
child 字 段 type 为 
event， 而 title 包 含 
Elasticsearch 关 键 词 ) 


第 二 阶段 : 将 匹配 结果 聚集 为 父辈 的 结果 


get-together 


匹配 的 分 组 : 
Denver Tech, 
San Francisco Tech 


图 8-14 has_child WiarBotk tT biS1t, RARE, BUREN 
AR 


例如 ， 可 以 将 score_mode 设置 为 nax ， 让 如 下 的 查询 在 返回 分 
组 时 ， 按 照 举办 的 Elasticsearch 活 动 之 最 高 相关 性 来 排列 这 些 分 组 : 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 


"has_child": { 


"type": "event", 


"score_mode": "max", 
"query": { 
"term": { 
"title": "elasticsearch" 
} 
} 
} 
ioe 


为 了 让 has_child 查询 和 过 滤器 可 以 快速 地 删除 父辈 中 的 重复 项 ， 系 统 将 父辈 的 ID 
缓存 在 第 6 章 介 绍 的 字段 缓存 之 中 。 如 有 果 有 很 多 父 华 文档 和 查询 相 匹 配 ， 那 么 这 可 能 会 消 
耗 很 多 JVM 的 堆 内 存 。 一 旦 将 _parent 字段 作为 文档 值 来 处 理 ， 那 么 这 个 问题 就 会 得 到 绥 
解 。 


2. 在 结果 中 获得 子 文档 


默认 情况 下 ，has_child 查询 只 会 返回 父辈 文档 ， 不 会 返回 匹 
配 的 子 文 档 。 通 过 添加 之 前 在 敬 套 文档 部 分 介绍 的 jnner_hits 选 
项 ， 也 可 以 获得 子 文档 : 


"query": { 
"has_child": { 

"type": "event", 

"query": { 
"term": { 

"title": "elasticsearch" 

} 

ty 

"inner_hits": {} 


} 


} 
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动 ， 除 了 那些 拥有 上 自己 ID 的 单独 的 活动 文档 : 


"name": "Elasticsearch Denver", 
Essi] 

"inner_hits" : { 
"event" : { 
"hits" : { 

"total" : 2, 

"max_score" : 0.9581454, 
"hits" : [ { 
"index" : "get-together", 


"type" : "event" , 


" id" : "103", 


"score" : 0.9581454, 
"source": { 

"host": "Lee", 

"title": "Introduction to Elasticsearch", 


34 Has_parent 查 询 和 过 滤器 
如 你 所 想 ，has_parent 和 has_child 相对 等 。 当 搜索 活动 的 
时 候 ， 如 果 条 件 是 天 于 其 所 属 的 分 组 ， 你 就 会 用 到 has_parent 。 


这 里 has_parent 过 滤器 可 以 封装 一 个 查询 或 过 滤器 。 它 运行 在 
你 所 提供 的 "type" 上 上， 获取 父 非 的 结果 ， 然 后 返回 子 蕴 ， 它 们 都 通 
过 _parent 字段 指 疝 父 埋 的 ID。 


代码 清单 8-8 展 示 了 如 何 搜索 关于 Elasticsearch 的 活动 ， 而 且 它 们 


只 在 Denver 举 办 。 


代码 清单 8-8 has_parent 查 询 用 于 发 现 Denver 举 办 的 Elasticsearch 活 动 


curl 'localhost:9200/get-together/event/_search?pretty' 


二 --- 主 查询 包含 2 个 必须 (must) 满足 的 子 查询 


: { <--- 这 个 查询 运行 在 活动 上 ， 确 保 标题 中 包 
&"elasticsearch” žy] 
"title": "elasticsearch" 


ty 


"has_parent": { 


"type" : "group", 


"query": { 
"term": { <--- 这 个 查询 运行 在 每 个 活动 的 分 组 上 ， 确 保 活动 在 Denver 


"location": "denver" 


由 于 每 个 子 辜 只 有 一 个 父 辜 ， 因 此 无 须 像 has_chil1d 那样 聚集 
得 分 。 默 认 地 ，has_parent 对 于 子 辈 的 得 分 没有 影响 
("score_mode": "none" ) 。 可 以 将 "score_mode" 修改 


为 "score" ， 让 活动 继承 它们 父 幸 分 组 的 得 分 。 


就 像 has_chil1d 查询 和 过 滤器 ，has_parent 查询 和 过 滤器 必 
须要 将 父辈 的 ID 加 载 到 字段 数据 ， 来 支持 : 也 就 是 说 ， 可 
以 认为 所 有 的 父辈 / 子 辈 查询 要 比 对 等 的 骨 套 查询 速度 更 慢 。 这 是 为 了 
能 够 单独 索引 和 搜索 所 有 文档 而 付出 的 代价 。 


男 一 个 同 has_child 查询 和 过 小 絮 相 类 似 的 地 方 在 于 ， 
has_parent 默认 情况 下 只 返回 关系 的 一 端 (在 这 个 例子 中 ， 束 是 子 


FEA SCR) 。 从 版 本 1.5 的 Elasticsearch 开 始 ， 也 可 以 通过 在 查询 中 加 入 
inner_hits 对 象 来 获取 父辈 。 


A. TERE 


从 版 本 1.4 开 始 ，Elasticsearch 引 入 了 children 聚集 ， 人 允许 你 在 
子 文档 上 骨 入 聚集 ， 就 像 在 父 文 档 上 那样 。 假 设 你 已 经 通过 词 条 桶 
集 ， 获 得 了 get-together 分 组 中 最 流行 的 标签 。 对 于 这 些 标 签 ， 你 也 和 需 
要 知道 每 个 标签 分 组 中 ， 谁 是 最 积极 的 活动 参与 者 。 换 言 之 ， 你 想 看 
看 哪些 会 员 对 某 类 活动 特别 感 兴趣 。 


代码 清单 8-9 在 流行 标签 的 terms 3 FRE ST children ¥ 
集 ， 以 此 来 发 现 这 类 会 员 。 在 children 聚集 中 ， 又 榴 套 了 另 一 个 
terms 聚集 来 统计 每 个 标签 所 对 应 的 活动 参与 者 。 


由 


代码 清单 8-9 ”结合 parent 和 children 聚 集 


curl "localhost:9200/get-together/_search?pretty" -d '{ 


"aggs": { 
"top-tags": { =--- 流 行 标签 的 聚集 为 每 个 标签 创建 了 一 个 分 组 的 桶 
"terms": { 
"field": "tags.verbatim" 
ty 
"aggs": { 


"to-events": { «<---to-events 为 每 个 标签 中 的 分 组 创建 了 一 个 活动 的 


"Children": { 
"type" : "event" 

}, 

"aggs": { 


"frequent-attendees": { -~---frequent-attendees 统 计 了 每 个 


"terms": { 


"field": "attendees" 


} 
H 
### reply 
"aggregations" : { 
"top-tags" : { 


"buckets" : [ { 


"key" : "big data", <---@ 3 个 分 组 拥有 “大 数据 ”的 标签 
"doc_count" : 3, 
"to-events" : { 


"doc_count" : 9, «<---ixX3 个 分 组 总 共有 9 个 活动 子 文档 


"frequent-attendees" : { 


"buckets" : [ { 


"key" : "andy", «<---Andy 和 Greg 参加 了 全 部 的 3 个 大 数据 活动 
"doc_count" : 3 
} { 


"key" g "greg", 


"doc count" : 3 


"key" : "open source", 


"doc_count" : 3, 


"to-events" : { 


"doc_count" : 9, 


"frequent-attendees" : { 
"buckets" 


: [it 


"key" g "shay", 


----Shay 参加 了 4 个 


源 的 活动 
"doc_count" : 4 


} { 


"key" k "andy", 


"doc_count" : 3 
[...] 


你 可 能 注意 到 


了 children 聚集 和 nested 聚集 是 类 似 的 一 它 将 子 文档 传 入 父 文 档 
的 聚集 中 进行 处 理 。 不 幸 的 是 ， 至 少 在 版 本 1.4 中 ，Elasticsearch 还 未 提供 一 个 和 reverse 
nested 聚集 对 等 的 逆向 父子 聚集 
集中 。 


让 你 进行 如 下 的 反 向 操作 : 将 父 文档 传 入 子 文档 的 聚 


可 以 认为 峙 套 文 档 征 索引 阶段 的 连接 ， 而 父子 关系 是 查询 阶段 的 
ER o A TREIA, EMET E] NERS RERAN 
一 个 单独 的 Lucene 分 块 。 对 比 之 下 ，_parent 字段 允许 不 同类 型 的 文 
档 在 查询 的 时 候 相互 关联 。 


舱 套 和 父子 结构 对 于 一 对 多 的 关系 来 说 非常 好 用 。 对 于 多 对 多 的 
关系 ， 你 不 得 不 借助 NoSQL 领 域 常用 的 技术 : 反 规 范 化 


HIV o 
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在 继续 之 前 ， 这 里 我 们 快速 总 结 下 为 什么 或 为 什么 不 使 用 父子 关系 。 
其 优势 如 下 。 


。 子 草 和 父辈 可 以 各 目 单 独 更 新 。 
。 查询 阶段 的 连接 比 你 在 应 用 程序 中 的 连接 性 能 更 好 ， 因 为 所 有 相关 的 文档 都 路 由 到 


同一 个 分 片 ， 连 接 都 是 在 该 分 片 内 进行 ,无 须 额 外 的 网 络 传输 开销 
其 不 足 如 下 。 


。 查询 比 对 等 的 娩 套 更 耗资 源 ， 而 且 比 字段 数据 需要 更 多 的 内 存 。 
和 


8.5 RARE: 使 用 元 余 的 数据 管理 


反 规 范 化 (denormalizing) 是 指使 用 复制 数据 来 避免 昂贵 的 连接 
(join) 操作 。 让 我 们 看 一 个 之 前 的 例子 : 分 组 和 活动 。 这 是 一 对 多 
， 因为 一 个 活动 只 能 由 一 个 分 组 举办 ， 而 一 个 分 组 可 以 举办 多 
活动 。 


有 了 父子 关系 或 艇 套 结 构 ， 分 组 和 活动 束 会 被 存储 于 不 同 的 
Lucene 文 档 ， 如 图 8-15 所 示 。 


图 8-15 不同 Lucene 文 档 间 的 层级 关系 (MERKT) 


这 种 关系 可 以 通过 将 分 组 信息 加 入 所 属 活动 中 ， 来 进行 反 规范 
化 ， 如 图 8-16 所 示 。 


图 8-16 通过 复制 分 组 信息 到 每 个 活动 ， 反 规范 化 层级 型 的 关系 


下 面 来 看 看 反 规范 化 何 时 何 地 可 以 帮助 到 你 ， 以 及 如 何 具 体 地 索 
引 和 查询 反 规范 化 之 后 的 数据 。 


8.5.1 反 规 范 化 的 使 用 案例 


让 我 们 从 其 缺点 开始 : 反 规 范 化 后 的 数据 比 规范 化 数据 占用 了 更 
多 的 存储 空间 ， 而 且 更 难 管理 。 在 图 8-16 的 例子 中 ， 如 采 修 改 了 分 组 
的 细节 ， 你 必须 要 更 新 3 个 文档 ， 因 为 那些 细节 出 现 了 3 次 。 


从 好 的 方面 来 看 ， 在 查询 的 时 候 ， 没 有 必要 连接 不 同 的 文档 。 在 
分 布 式 系统 中 这 一 点 尤为 重要 ， 因 为 跨 过 网 络 来 连接 多 个 文档 引入 了 
很 大 的 延 时 ， 如 图 8-17 所 示 。 


图 8-17 ”由 于 网 络 延 时 ， 横 跨 多 个 节点 来 连接 文档 是 很 困难 的 


通过 确保 父 非 和 子 吉 都 是 存储 在 同一 节点 上 ， 航 套 和 父子 文档 避 
免 了 网 络 的 延 时 ， 如 图 8-18 所 示 。 
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图 8-18 婴 套 和 父子 关系 确保 所 有 的 连接 都 在 本 地 进行 
1. 反 规 范 化 一 对 多 的 关系 


舱 套 和 父子 结构 的 本 地 连接 比 远程 连接 要 快 得 多 。 尽 管 如 此 ， 它 
们 还 是 比 没有 连接 更 耗资 源 。 这 里 反 规 范 化 可 以 帮助 我 们 ， 不 过 意味 
着 需要 更 多 的 数据 。 索 引 操 作 会 导致 更 多 的 负载 ， 因 为 你 将 索引 更 多 
的 数据 ， 而 查询 会 运行 于 更 大 的 案 引 之 上 ， 让 它们 变 得 更 慢 。 


你 可 以 看 到 ， 在 从 父 类 型 、 父 于 关系 和 反 规 范 化 之 间 进 行 选择 
时 ， 需 要 衡量 一 下 各 目的 利 整 。 通 常 ， 如 果 数 据 规 模 真 的 非常 小 ， 内 
容 基 本 不 变 ， 而 且 有 很 多 查询 请 求 ， 那 么 可 以 反 规 范 化 一 对 多 的 关 
系 。 这 种 情况 下 ， 其 负面 影响 不 大 (索引 的 大 小 可 以 接受 ， 也 没有 太 
多 的 索引 操作 ) ， 而 且 没 有 了 连接 ， 查 询 会 更 快 。 


We 0 请 参考 第 10 章 ， 那 里 都 是 讨论 如 何 让 索引 和 搜索 更 快 的 
X o 


2. 反 规 范 化 多 对 多 的 关系 


在 Elasticsearch 中 ， 多 对 多 的 关系 处 理 和 一 对 多 的 关系 处 理 有 所 不 
pee 一 个 分 组 可 以 包含 多 个 会 员 ， 而 一 个 人 也 可 以 是 多 个 分 组 
y FDA ° 


这 里 反 规 范 化 是 一 个 更 好 的 提议 ， 因 为 和 藤 套 、 父 子 的 一 对 多 实 
现 不 同 ，Elasticsearch 无 法 承诺 让 多 对 多 的 关系 保持 在 一 个 市 点 内 。 如 
图 8-19 所 示 ， 一 个 单独 的 关系 可 能 会 延伸 到 整个 数据 集 。 这 种 操作 可 
能 会 非常 昂贵 ， 跨 网 络 的 连接 无 法 避免 。 


在 版 本 1.5 中 ， 由 于 跨 网 络 的 连接 非常 缓慢 ， 反 规范 化 是 
Elasticsearch 中 唯一 表示 多 对 多 关系 的 方式 。 图 8-20 展 示 了 当 会 员 反 规 
范 化 为 每 个 分 组 的 子 莫 后， 图 8-19 的 结构 会 变 成 什么 样子 。 我 们 将 多 
对 多 关系 的 一 端 反 规范 化 为 许多 一 对 多 的 关系 。 


图 8-19 多 对 多 的 关系 会 包含 大 量 的 数据 ， 使 得 本 地 连接 成 为 不 可 能 
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图 8-20 ”多 对 多 的 关系 反 规 范 化 为 多 个 一 对 多 的 关系 ， 让 本 地 连接 成 为 可 能 
下 面 来 看 看 如 何 索引 、 更 新 、 并 且 碍 询 图 8-20 的 这 种 结构 。 


8.5.2 ”索引 、 更 新 和 删除 反 规范 化 的 数据 


在 开始 索引 之 前 ， 你 必须 要 决定 如 何 将 多 对 多 的 关系 反 规范 化 成 
为 一 对 多 的 关系 ， 这 里 有 两 个 主要 的 决策 点 : 应 该 反 规 范 化 哪个 方 同 
的 关系 ， 以 及 如 何 表 示 反 规范 化 之 后 的 一 对 多 关系 。 


1. 反 规 范 化 哪 一 个 方向 


征 将 会 员 复制 为 分 组 的 于 文档 呢 ， 还 是 反 过 来 将 分 组 复制 为 会 员 
IFSC? 你 必须 要 理解 数据 是 如 何 索 引 、 更 新 、 删 除 和 查询 的 ， 才 
能 做 出 选择 。 被 反 规 范 化 的 部 分 (也 就 是 子 文档 ) 从 各 方面 来 看 都 是 
难以 管理 的 。 
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一 次 。 

。 当 更 新 的 时 候 ， 必 须 更 新 这 篇 文档 的 所 有 实例 。 

。 当 删 除 的 时 候 ， 必 须 删除 所 有 的 实例 。 

。 当 单 独得 询 这 些 子 文档 的 时 候 ， 你 将 获得 多 个 同样 的 内 容 ， 所 以 
需要 在 应 用 端 移 除 重复 项 。 


基于 这 些 假设 ,看 上 去 让 会 员 成 为 分 组 的 子 文档 更 合理 一 些 。 会 
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么 高 。 因 此 ， 管 理 复制 后 的 会 员 文档 要 容易 一 些 。 


2. 如 何 表示 一 对 多 的 关系 


你 是 选择 父子 关系 还 是 髓 套 文 档 ? 这 里 ， 最 好 按照 分 组 和 会 员 一 
起 搜索 并 获取 的 频率 来 选择 。 般 套 得 询 比 has_parent 或 
has_child 查询 的 性 能 更 佳 。 


男 一 个 重要 的 方面 是 ， 会 员 变 化 有 多 么 频 迷 。 此 时 ， 父 子 结构 的 
性 能 更 好 ， 因 为 它们 可 以 各 目 单独 更 新 。 


对 于 这 个 例子 ， 让 我 们 假设 一 并 搜索 并 获取 分 组 和 会 员 是 很 罕见 
的 行为 ， 而 会 员 经 钊 会 加 入 或 者 退出 分 组 ， 因 此 选择 父子 关系 。 


3. 索引 


分 组 及 其 活动 之 前 已 经 索引 过 ， 但 是 对 于 会 员 而 言 ， 在 每 个 它 所 
属 的 分 组 中 该 会 员 都 要 被 索引 一 次 。 代 码 清单 8-10 首 先 定 义 了 新 的 
member 类 型 映射 ， 然 后 索引 了 Hinman 和 先生， 将 其 作为 Denver Clojure 
和 Denver Elasticsearch 分 组 的 会 员 。 


代码 清单 8-10 索引 反 规范 化 之 后 的 会 员 


curl -XPUT 'localhost:9200/get-together/_mapping/member' -d '{ 
"member": { 


"parent": { "type": "group"}, =--- 首 先 定义 映射 ， 指 定 会 员 的 父辈 类 型 是 


"properties": { 
"first_name": { "type": "string"}, 
"last_name": { "type": "string"} 


1 


curl -XPUT 'localhost:9200/get-together/member/10001?parent=1' -d 


1 


"first_name": "Matthew", <---it#parent=1 指向 了 Denver Clojure 分 


"Last_name": "Hinman" 
1 


curl -XPUT 'localhost:9200/get-together/member/10001?parent=2' -d 


"first_name": "Matthew", ~--- 这 里 parent=2 指向 了 Denver 
Elasticsearch 分 组 


"last_name": "Hinman" 


} T 


使 用 批 处 理 (bulk) API， 在 一 次 HTTP 请 求 可 以 进行 多 次 索引 操作 。 我 们 将 在 关于 性 
能 的 第 10 章 讨论 批 处 理 API 。 


再 强调 一 次 ， 分 组 是 很 幸运 的 ， 你 只 需要 按照 3.5 世 那样 更 新 它 
们 。 但 是 ， 如 果 修 改 了 一 位 会 员 的 细节 信息 ， 由 于 会 员 数 据 已 经 被 反 
规范 化 了 ， 你 首先 需要 搜索 全 部 的 复制 数据 ， 然 后 更 新 每 一 个 副本 。 
代码 清单 8-11 将 搜索 _id 为 “10001” 的 全 部 文档 ， 并 将 其 名 更 新 为 
Lee， 这 是 他 希望 别人 对 其 的 称呼 


你 搜索 的 是 ID 而 不 是 名 字 ， 这 是 因为 ID 相 比 其 他 字段 (如 名 字 ) 
而 言 更 为 可 靠 。 你 可 能 还 记得 在 讨论 父子 关系 的 章节 ， 使 用 了 
_parent 字段 ， 在 同一 索引 的 同一 类 型 中 ， 多 篇 文档 可 以 拥有 同样 的 
_id 值 。 只 有 _id 和 _parent 的 组 合 才 能 确保 唯一 性 。 在 反 规 范 化 
的 时 候 ， 可 以 利用 这 种 特性 ， 为 同一 位 会 员 有 意 地 使 用 同样 的 _id , 
对 于 会 员 所 属 的 分 组 每 组 使 用 一 次 。 这 人 允许 你 通过 会 员 的 ID ， 快 速 并 
可 靠 地 检索 某 位 会 员 的 全 部 实例 。 


代码 清单 8-11 更 新 反 规范 化 的 会 员 


curl 'localhost:9200/get-together/member/_search?pretty' -d 


'{ 
"query": { 
"filtered": { 
"filter": { 


"term": { 


"id": "10001" 


~- - -搜索 拥有 同样 ID 的 所 有 会 员 ， 这 将 返回 此 人 的 全 部 复制 
} 
} 
} 
ty 


"fields": ["_parent"] 


~- - -你 只 需要 每 篇 文档 的 _parent 字段 ， 就 能 知道 如 何 进行 更 新 了 


curl -XPOST 'localhost:9200/get - 
together /member/10001/_update?parent=1 


"doc": { 
"first_name": "Lee" <。--- 对 于 每 篇 返回 的 文档 ， 将 名 字 更 新 为 ^Lee” 


} 


curl -XPOST 'localhost:9200/get - 
together /member/10001/_update?parent=2 


' d '{ 
"doc": { 
"first_name": "Lee" 


ae 
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使 用 批 处 理 (bulk) API， 在 一 次 HTTP 请 求 可 以 进行 多 次 更 新 操作 。 和 批量 索引 一 
羊 ， 我 们 将 在 第 10 章 讨论 批量 更 新 。 


5. 删除 


删除 一 个 反 规范 化 的 会 员 ， 需 要 你 再 次 识别 所 有 的 副本 。 还 记得 
在 介绍 父子 关系 的 章节 中 ， 为 了 删除 一 篇 特定 的 文档 ， 必 须 同 时 指定 
_id 和 _parent ， 这 是 因为 两 者 的 结合 才能 决定 索引 和 类 型 中 的 唯一 
存在 。 首 先 ， 需 要 通过 词 条 过 滤器 来 识别 会 员 ， 就 像 代 码 清单 8-11 那 
样 。 然 后 再 来 删除 每 个 会 员 实例 。 


% curl -XDELETE 'localhost:9200/get -together/member/10001? 
parent=1' 


% curl -XDELETE 'localhost:9200/get-together/member/10001? 
parent=2' 


现在 你 已 经 了 解 了 如 何 索 引 、 更 新 和 删除 反 规 范 化 会 员 ， 搂 下 来 
看 看 如 何在 它们 之 上 运行 查询 。 


8.5.3 ”查询 反 规 范 化 的 数据 


如 果 你 需要 查询 分 组 ， 那 么 没有 什么 特别 的 ， 因 为 分 组 并 未 反 规 
范 化 。 如 果 需 要 通过 设置 其 会 员 相 天 的 条 件 来 搜索 分 组 ， 使 用 
has_child 查询 吧 ， 就 像 8.4.2 节 那样 。 


如 果 直 接 查 询 会 员 ， 处 理 起 来 就 比较 麻烦 ， 因 为 它们 已 经 被 反 规 
范 化 了 。 你 可 以 搜索 它们 ， 甚 至 可 以 使 用 has_parent 查询 包含 关于 
其 所 属 分 组 的 条 件 。 但 是 ， 有 一 个 问题 : 你 将 获得 多 个 重复 的 会 员 。 
然后 在 搜索 的 时 候 ， 你 将 同时 
获得 


rae 


代码 清单 8-12 EL BOLI Cae R ER AA 


curl -XPUT 'localhost:9200/get-together/member/10002? 
parent=1' -d '{ 
"first_name": "Radu", =---- 索 引 一 位 会 员 两 次 ， 每 个 分 组 一 次 
"last_name": "Gheorghe" 
} i 
curl -XPUT 'localhost:9200/get-together/member/10002? 
parent=2' -d '{ 
"first_name": "Radu", 
"last_name": "Gheorghe" 
i 
curl -XPOST 'localhost:9200/get-together/_refresh' 
curl 'localhost:9200/get-together/member/_search?pretty' -d 


'{ 


"query": { 
"term": { 
"first_name": "radu" ~--- 使 用 名 字 来 搜索 该 会 员 
} 
t}! 
# reply "hits" = | { "index" : "get-together", 
" type" g 
"member", "id" : "10002", "_ score" : 2.871802, 
"_source" : { =--- 同 样 的 会 员 返回 了 两 次 ， 每 个 分 组 返回 一 次 
"first_name": "Radu", "last_name": "Gheorghe"} Fao 
"_index" : 
"get-together", "_type" : "member", "_id" : 
"10002", 
"_score" : 2.5040774, "_source" : { 
"first_name": "Radu", "last_name": "Gheorghe"} }] 
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总 是 拥有 同样 的 ID ， 那 么 可 以 使 用 ID 让 这 个 任务 变 得 更 简单 一 些 : 同 
样 ID 的 两 个 结 采 就 是 同一 个 人 。 


对 于 罕 集 而 言 ， 存 在 同样 的 问题 ， 如 果 你 想 统计 会 员 的 某 些 属 
性 ， 这 些 数 据 不 会 准确 ， 因 为 同样 的 会 员 出 现在 多 处 。 


对 于 多 数 的 搜索 和 到 集 ， 一 种 变通 的 方式 是 在 独立 的 索引 中 维护 
所 有 会 员 的 副本 。 让 我 们 称 其 为 “members”。 查 询 这 个 索引 将 只 会 返 
回 每 个 会 员 唯一 的 副本 。 这 种 变通 方式 的 问题 在 于 ， 如 采 你 不 进行 应 


用 端的 连接 ， 那 么 它 只 能 在 仅仅 查询 会 员 的 时 候 才 能 起 到 作用 。 后 面 


和 其 他 方法 一 样 ， 我 们 为 反 规 范 化 的 强 弱 项 提供 了 快速 概览 。 
其 优势 如 下 。 


。 它 允许 使 用 多 对 多 的 关系 。 ; 
。 没 有 引入 连接 ， 如 果 集 群 可 以 处 理 复制 导致 的 额外 数据 ， 那 么 查询 将 更 为 快速 。 


其 不 足 如 下 。 
。 在 索引 、 更 新 和 删除 的 时 候 ， 应 用 程序 不 得 不 处 理 复制 的 数据 。 
。 由 于 数据 的 复制 ， 导 致 某 些 搜索 和 聚集 无 法 按照 预期 那样 工作 。 


8.6 ”应 用 端的 连接 


如 果 不 进 行 反 规范 化 ， 处 理 分 组 和 会 员 之 间 关 系 的 另 一 种 选择 
是 ， 将 它们 保存 在 各 目 单 独 的 索引 中 ， 然 后 在 应 用 程序 中 进行 连接 。 
就 像 Elasticsearch 处 理 父 子 关 系 那 样 ， 这 需要 存储 ID 来 表示 哪些 会 员 属 
于 哪些 分 组 ， 而 且 两 者 都 需要 查询 。 


举 个 例子 ， 如 果 查 询 名 字 包 含 “Denver* 而 会 员 包 仿 “Lee” 或 
者 “Radu” 的 分 组 ， 那 么 可 以 先 在 会 员 上 运行 一 个 bool 查询 来 查找 谁 
是 Lee 和 Radu。 一 旦 有 了 这 些 ID， 你 可 以 在 分 组 上 运行 第 二 次 查询 ， 
在 Denver 查 询 中 加 入 会 员 ID 的 terms 过 滤器 。 整 个 流程 如 图 8-21 所 
不 。 


在 没有 太 多 匹配 的 会 员 时 ， 这 样 操 作 可 以 奏效 。 但 是 ， 假 如 你 想 
包含 一 个 城市 中 所 有 的 会 员 ， 第 二 个 查询 将 不 得 不 运行 一 个 有 着 成 千 
上 万 会 员 的 terms 过 滤器 ， 使 得 操作 的 成 本 非常 昂 贯 。 不 过 ， 还 可 以 
像 下 面 这 样 处 理 。 


。 当 运 行 第 一 个 查询 的 时 候 ， 如 果 只 需要 会 员 ID， 你 可 以 关闭 
_Ssource 字 段 的 检索 ， 来 降低 网 络 传输 的 流量 : 


"query": { 
"filtered": { 
ee | 


} 


1 
" source": false 


用 户 查询 : 
发 现 名 字 包 含 “Denver”、 
会 员 包 含 Lee 和 Radu 的 分 组 


查询 : 
bool: 
should 
name:lee 回复 : 
name:radu =1; id=4 
查询 : 回复 : 
bool: name=Denver technology group; 
id: 1 must: name=Denver search and big data 
name: Lee name:denver 
members:1,4 


id: 2 

name: Roy 

id: 3 name: Denver technology group 

name: Susan members: 1,2,3 

id: 4 

name: Radu 
会 员 索 引 


图 8-21 ”应 用 端的 连接 需要 运行 两 次 查询 


。 人 在 第 二 次 查询 中 ， 如 果 有 非常 多 的 ID， 也 许 在 字段 数据 上 执行 
terms Wikre ER: 


name: Denver search and big data 
members: 1,4 


分 组 索引 


"query": { 
"filtered": { 
"filter": { 
"terms": { 
"members": [1, 4], 
"execution": "fielddata" 


a. Ee Min BARTERIA, (oe, OCR A HTE 
时 ， 最 终 还 是 需要 你 来 抉择 实施 的 方案 。 


8.7 小 结 


ba 很 多 用 例 不 得 不 处 理 关 系 型 数据 ， 在 本 章 中 你 学 习 了 如 何 处 理 这 


。 对 象 映射 ， 对 于 一 对 一 关系 最 为 有 用 。 
。 舱 套 文档 和 父子 结构 ， 处 理 了 一 对 多 的 关系 。 
。 反 规范 化 和 应 用 端的 连接 ， 对 于 多 对 多 的 关系 而 言 最 有 帮助 。 


印 使 是 在 本 地 进行 ， 连 接 操 作 仍然 损害 了 性 能 。 所 以 ， 通 和音 情 况 
下 将 尽量 多 的 属性 放 入 单个 文档 是 个 好 主意 。 对 象 映射 能 起 到 作用 有 是 
因为 它 允 许 文 档 中 存在 层级 结构 。 这 里 搜索 和 聚集 谍 像 在 局 平 结构 的 
文档 上 一 样 运作 。 需 要 使 用 全 路 径 来 指 癌 字段 ， 喊 像 


location.name ° 
当 你 需要 避免 跨 对 象 的 匹配 时 ， 骸 套 和 父子 文档 可 以 提供 帮助 。 


藤 套 文档 通常 是 在 索引 的 时 候 进 行 连接 ， 将 多 个 Lucene 文 档 放 入 
ee °。 对 于 应 用 ,分 块 看 上 去 就 像 一 篇 单独 的 Elasticsearch 文 
_parent 字段 介 许 你 在 同一 索引 中 将 一 篇 文档 指 癌 其 父 侍 ， 也 束 
是 男 一 篇 不 同类 型 的 文档 。Elasticsearch 将 使 用 路 由 来 确保 父 菲 和 
子 蕴 存储 在 同一 分 片上 ， 这 样 查询 的 时 候 只 需要 进行 本 地 连接 。 


可 以 使 用 下 面 的 查询 和 过 滤 絮 来 搜索 拘 僚 和 父子 文档 。 


nested 查询 和 过 滤器 。 
has_child 查询 和 过 滤器 。 
has_parent 查询 和 过 滤器 。 


关系 上 的 聚集 只 针对 藤 套 文档 ， 通 过 nested 和 
reverse_nested 聚集 类 型 来 实现 。 


对 象 、 藤 克 和 父子 关系 ， 以 及 通常 使 用 的 反 规 范 化 技术 ， 能 以 任 
何 的 方式 组 合 ， 这 样 就 可 以 同时 获得 不 错 的 性 能 和 功能 。 


第 二 部 分 


在 这 部 分 中 ， 我 们 将 焦点 从 开发 转移 到 生产 环境 。 有 3 章 聚 焦 在 如 
何 扩展 Elasticsearch， 调 优 系统 以 获得 更 好 的 性 能 ， 并 进行 维护 。 随 着 
各 种 特性 之 性 能 的 探讨 ， 你 将 更 加 深入 地 理解 第 一 部 分 所 介绍 的 功 
能 。 这 些 信息 对 于 开发 和 运 维 而 言 都 是 很 有 价值 的 ， 因 为 它们 通常 需 
要 一 起 协同 来 建立 Elasticsearch， 使 得 其 可 以 扩展 规模 ， 满 足 生 产 环 境 
的 和 需求， 并且 易于 维护 。 


第 9 章 ”向 外 扩展 


本 章 主要 内 容 


。 | 可 Elasticsearch 和 集群 添加 节点 

。 Elasticsearch 和 集群 中 的 主 节点 选举 
。 删除 和 停 用 厄 点 

。 使 用 _cat API 接 口 来 理解 你 的 集群 
。 TRIALS ETRE 

。 别名 和 定制 路 由 


现在 你 已 经 很 好 地 理解 了 Elasticsearch 能 够 做 什么 ， 接 下 来 你 将 见 
识 Elasticsearch 下 一 个 杀手 级 的 特性 扩展 能 力 ， 也 就 是 ， 能 够 处 理 
更 多 的 索引 和 搜索 请 求 ， 或 者 是 更 快 地 处 理 索 引 和 搜索 请 求 。 如 今 ， 在 
处 理 百 万 级 甚至 数 十 亿 级 的 文档 时 ， 扩 展 性 是 一 个 非常 重要 的 因素 。 没 
有 了 某 种 形式 的 扩展 ， 在 单一 的 Elasticsearch 运 行 实例 或 节点 (node) 
上 束 无 法 一 直 文 持 规模 持续 增 大 的 流量 。 举 运 的 是 ，Elasticsearch 很 容 
易 扩 展 。 本 章 将 介绍 Elasticsearch 所 拥有 的 扩展 能 力 ， 以 及 你 可 以 如 何 
使 用 这 些 特性 来 给 予 Elasticsearch 更 多 的 性 能 、 更 多 的 可 靠 性 。 


在 第 2 章 和 第 3 草 中 ， 你 已 经 学 习 了 Elasticsearch 是 如 何 处 理 get- 
together 数 据 。 现 在 ， 我 们 准备 谈 谈 如 何 扩展 搜索 系统 ， 来 处 理 更 多 的 
流量 。 想 象 一 下 ， 你 坐 在 办 公 室 里 ， 然 后 老板 走 进来 宣布 你 的 站 点 已 经 
被 连 线 (Wired) 杂志 评选 为 最 热门 的 新 站 点 ， 每 个 人 都 会 使 用 该 网 站 
来 预订 社交 的 聚会 (get-together) 。 你 现在 的 任务 是 : 确保 Elasticsearch 
可 以 处 理 狐 的 分 组 和 活动 不 断 涌 和 入， 一旦 连 线 杂 志 的 文章 公布 后 ， 还 要 
处 理 所 有 访问 站 点 的 新 搜索 请 求 ! 还 有 24 小 时 。 在 所 剩 不 多 的 时 间 里 ， 
你 准备 如 何 扩展 Elasticsearch 的 服务 器 来 应 对 这 些 流 量 ? 谢 天 谢 地 ， 
Elasticsearch 使 其 扩展 变 成 了 举 手 之 玫 ， 只 需要 癌 现 有 的 Elasticsearch 集 
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9.1 加 Elasticsearch 集 群 加 入 节点 


即使 你 在 工作 中 的 境遇 和 刚刚 描述 的 有 所 不 同 ， 在 实验 
Elasticsearch 的 过 程 中 ， 最 终 还 是 需要 为 Elasticsearch 集 群 加 入 更 多 的 处 
理 能 力 。 


你 可 能 需要 在 索引 中 更 快速 地 、 并 行 地 搜索 和 索引 数据 。 机 妖 可 能 
没有 人 磁盘 空间 了 ， 或 者 Elasticsearch 节 点 在 查询 数据 的 时 候 内 存 快 耗 尽 
了 。 在 这 些 情 况 下 ， 为 Elasticsearch 广 点 增加 性 能 的 最 简单 方式 通常 是 
通过 增加 更 多 的 节点 ， 将 其 变 为 Elasticsearch 和 集群 ， 就 像 之 前 第 2 章 介 绍 
的 那样 。Elasticsearch 的 水 平 扩展 很 容易 ， 回 集群 中 加 入 更 多 的 节点 ， 
这 样 它们 束 能 分 担 索引 和 搜索 的 负载 。 通 过 回 Elasticsearch 集 群 加 入 克 
点 ， 你 很 快 就 能 处 理 面 前 上 百 万 的 分 组 及 活动 的 索引 和 搜索 。 


SRE PAT A 


创建 Elasticsearch 集 群 的 第 一 步 ， 是 为 单个 节点 加 入 另 一 个 点 

(或 多 个 节点 ) ， 组 成 节点 的 集群 。 辐 本 地 的 开发 环境 增加 节点， 就 和 
这 个 过 程 一 样 简 单 : 在 单独 目录 中 展开 Elasticsearch 的 发 行 版 本 、 进 入 
该 目录 、 并 运行 bin/elasticsearch 的 命令 ， 如 下 代码 片段 所 示 。 
Elasticsearch 将 自动 地 挑选 下 一 个 可 绑 定 的 端口 (在 这 个 例子 中 是 
9201) 并 自动 地 联结 现 有 节点 ， 多 么 神奇 啊 ! 如 果 更 进一步 ， 甚 至 不 需 
要 多 次 展开 Elasticsearch 的 发 行 版 本 ， 多 个 Elasticsearch 的 实例 可 以 从 同 
一 个 目 孙 运行 ， 也 不 会 相互 干扰 : 


% bin/elasticsearch =--- 原 有 的 Elasticsearch 节 点 ， 如 第 2 章 所 介绍 


[in another terminal window or tab] 
% mkdir elasticsearch2 
cd elasticsearch2 
tar zxf elasticsearch-1.5.0.tar.gz 
cd elasticsearch-1.5.0 <--- 新 启动 的 Elasticsearch 节 点 
bin/elasticsearch 


现在 你 有 了 第 二 个 Elasticsearch 世 点 加 入 了 集群 ， 可 以 先 运 行 
health 健康 检查 命令 来 查看 集群 状态 的 变化 ， 如 代码 清单 9-1 所 示 。 


代码 清单 9-1 ”获取 2 个 市 点 集群 的 健康 状态 


% curl -XGET 'http://localhost:9200/_cluster/health?pretty' 


"cluster_name" : "“elasticsearch", <--- 现 在 集群 是 绿色 状态 ， 而 不 
"status" : "green", 

"timed_out" : false, ~---- 现 在 集群 中 有 两 个 节点 可 以 处 理 数据 
"number_of_nodes" : 2, 

"number_of_data_nodes" : 2, 

"active_primary_shards" : 5, 

"active_shards" : 10, -~--- 所 有 10 个 分 片 都 是 激活 状态 
"relocating_shards" : 0, 
"initializing_shards" : 0, =--- 没 有 未 分 配 的 分 片 
"unassigned_shards" : 0 


在 这 个 集群 中 ， 不 存在 尚未 分 配 的 分 片 ， 你 可 以 通过 
unassigned_shards 的 计数 看 出 这 一 点 ， 它 的 值 是 0°。 那么 新 增 方 
点 上 的 分 乒 是 如 何 运 作 的 呢 ? 请 参考 图 9-1， 看 看 问 集 群 增加 一 个 节点 
前 后 ， 测 试 (test) 索引 发 生 了 些 人 什么。 在 左 端 ，test 索 引 的 主 分 片 全 部 
分 配 到 节点 Node1 ， 而 副本 分 片 H 分 配 没有 地 方 分 配 。 在 这 种 状态 
下 ， 集 群 是 黄色 的 ， 因 为 所 有 的 主 分 片 有 了 安家 之 处 ， 但 是 副本 分 片 还 
没有 。 一 旦 第 二 个 节点 加 入 ， 尚 未 分 配 的 副本 分 片 就 会 分 配 到 新 的 节点 
Node2 ， 这 使 得 集群 变 为 了 绿色 的 状态 。 


副本 分 片 尚未 分 配 ， 
因为 它们 不 能 和 主 分 
片 在 同一 个 节点 上 。 


图 9-1 从 1 个 节点 到 2 个 节点 ， 测 试 (tes) 索引 的 分 片 配置 所 发 生 的 变化 


当 另 一 个 节点 加 入 的 时 候 ，Elasticsearch 会 自动 地 党 试 将 分 片 在 所 
有 节点 上 进行 均匀 分 配 。 图 9-2 展 示 了 同样 的 分 片 如 何在 Elasticsearch 集 
群 中 的 3 个 节点 上 分 发 。 请 注意 ， 只 要 编号 相同 (同一 份 内 容 ) 的 主 分 
片 和 副本 分 搬 不 在 同一 个 节点 上 ， 那 么 我 们 并 不 禁止 将 主 分 乒 和 副本 分 
片 放 在 同一 个 和 点 上 。 


如 果 更 多 的 节点 加 入 集群 ，Elasticsearch 将 试图 在 所 有 的 节点 上 均 
匀 地 配置 分 片 数量 ， 这 样 每 个 新 加 入 的 节点 都 能 够 通过 部 分 数据 (以 分 
片 的 形式 ) 来 分 担负 载 。 祝 质 你 刚刚 水 平 扩展 了 Elasticsearch 的 集群 ! 


将 万 点 加 入 Elasticsearch 集 群 带 来 了 大 量 的 好 处 ， 主 要 的 收益 是 高 
可 用 性 和 提升 的 性 能 。 当 副本 分 片 是 激活 状态 时 (默认 情况 下 是 激活 
AY) ， 如 果 无 法 找到 主 分 片 ，Elasticsearch 会 自动 地 将 一 个 对 应 的 副本 
分 片 升 级 为 主 分 片 。 这 样 ， 即 使 失去 了 索引 主 分 片 所 在 的 节点 ， 仍 然 可 
以 访问 副本 分 片上 的 数据 四。 数据 分 布 在 多 个 节点 上 同样 提升 了 性 
能 ， 原 因 是 主 分 片 和 副本 分 片 都 可 以 处 理 搜索 和 获取 结果 的 请 求 ， 图 2- 
9 可 以 帮助 你 回忆 这 些 内 容 。 如 此 扩展 还 为 整体 集群 增加 了 更 多 的 内 
存 ， 所 以 如 果 过 于 消耗 内 存 的 搜索 和 聚集 运行 了 太 长 时 间或 致使 集群 耗 
RTA, 那么 加 入 更 多 的 市 点 总 是 一 个 处 理 更 多 更 复杂 操作 的 便捷 方 


Ba 


Elasticsearch 在 3 个 节点 上 重新 均衡 地 配置 分 片 


图 9-2 ”在 3 个 Elasticsearch 节 点 上 上， 测试 索引 的 分 片 配置 


现在 ， 通 过 增加 一 个 节点 ， 将 Elasticsearch 节 点 转变 成 了 一 个 真正 
的 集群 。 你 可 能 会 好 奇 每 个 节点 是 如 何 发 现 其 他 节点 并 和 它们 相互 通信 
的 。 下 面 这 个 章节 将 讨论 Elasticsearch 发 现 节 点 的 方法 。 


P 此 书 使 用 的 Elasticsearch 版 本 其 默认 的 副本 分 片 数 量 是 I。 一 译 
注 


[2] ”这 就 是 为 什么 我 们 要 求 编号 相同 〈 同 一 份 内 容 ) AYES 分 厂 和 副本 
分 片 不 在 同一 个 市 点 上 。 否 则 ， 一 个 节点 的 宕 机 会 导致 主 分 片 和 副本 分 
刻 都 无 法 访问 。 一 一 译 者 注 


9.2 ”发 现 其 他 Elasticsearch 节 点 


你 可 能 会 好 奇 加 入 集群 的 第 二 个 和 点 是 如 何 发 现 第 一 个 节点 、 并 目 
动 地 加 入 集群 的 。 创 造 性 地 ，Elasticsearch 节 点 使 用 两 种 不 同 的 方式 来 
发 现 男 一 个 节点 : 广播 或 单 播 。Elasticsearch 可 以 同时 使 用 两 者 ， 不 过 
默认 的 配置 是 仅 使 用 广播 ， 因 为 单 播 需要 已 知 世 点 的 列表 来 进行 连接 © 


9.2.1 通过 广播 来 发 现 


当 Elasticsearch 启 动 的 时 候 ， 它 发 送 了 广播 (multicast) 的 ping 请 求 
到 地 址 224.2.2.4 的 端口 54328， 而 其 他 的 Elasticsearch 下 点 使 用 同样 的 集 
群 名 称 ， 啊 应 了 这 个 请 求 。 所 以 ， 如 果 你 注意 到 同事 的 Elasticsearch 本 
地 副本 正在 运行 ， 而 且 加 入 了 你 的 集群 ， 请 确保 修改 elasticsearch.yml 配 
置 文件 中 的 cluster .name 设置 ， 将 默认 的 elasticsearch 改 为 一 
个 更 为 具体 的 名 称 。 通 过 设置 elasticsearch.yml 中 如 下 的 选项 〈 展 示 了 默 
WE) ， 可 以 修改 或 者 完全 天 闭 广 播发 现 的 若干 选项 : 


discovery.zen.ping.multicast: 
group: 224.2.2.4 


port: 54328 


ttl: 3 
address: null =--- 地 址 设置 为 nul1 意味 着 绑 定 所 有 的 网 络 接口 


enabled: true 


通常 而 言 ， 当 处 理 同一 个 网 络 中 非常 复杂 的 集群 时 ， 广 播发 现 是 个 
很 棒 的 选择 ， 因 为 加 入 的 节点 之 IP 地 址 经 常 修改 。 想 象 一 下 ， 广 播发 现 
(multicast discovery) 就 像 大 吼 一 声 :“ 噬 ， 还 有 哪些 其 他 的 节点 运行 


了 名 为 xyz 的 Elasticsearch 集 群 ? ”然后 等 竺 回复 。 广 播发 现 的 过 程 如 图 
9-3 所 示 。 


广播 发 送 给 了 整个 网 络 : 
还 有 任何 其 他 Elasticsearch 的 节点 吗 ? 


回复 一 加 入 该 集群 


图 9-3 Elasticsearch 使 用 广播 来 发 现 集群 中 的 其 他 节点 


尽管 广播 发 现 对 于 本 地 开发 和 快速 的 概念 验证 测试 而 言 是 很 棒 的 ， 
但 是 开发 生产 环境 的 集群 ，Elasticsearch 发 现 其 他 节点 更 可 靠 的 方式 是 
使 用 某 些 或 全 部 的 节点 作为 “ 口 口 相传 的 路 由 ”， 来 发 现 集群 更 多 的 信 
息 。 当 某 人 将 笔记 本 电脑 接 入 网 络 时 ， 这 样 的 发 现 方式 可 以 防止 节点 意 
外 地 连接 到 不 属于 它们 的 集群 。 单 播 帮助 我 们 解决 这 个 问题 ， 它 不 会 将 
消 恩 发 送 给 网 络 上 的 每 个 人 ， 而 是 连接 指定 列表 中 的 让 点 。 


9.2.2 ”通过 单 播 来 发 现 


单 播发 现 (unicast discovery) 让 Elasticsearch 连 接 一 系列 的 主机 ， 
并 试图 发 现 更 多 关于 集群 的 信息 。 当 节点 的 IP 地 址 不 会 经 常 变 化 ， 或 者 
Elasticsearch 的 生产 系统 只 连接 特定 的 节点 而 不 是 整个 网 络 的 时 候 ， 单 
播 是 很 理想 的 模式 。 使 用 单 播 时 ， 我 们 告诉 Elasticsearch 集 群 中 其 他 市 
点 的 耳 地 址 以 及 〈 可 选 的 ) 端口 或 端口 范围 。 一 个 单 播 配置 的 例子 可 以 
是 为 网 络 中 的 Elasticsearch 节 点 ， 在 其 elasticsearch.yml 中 设置 
discovery.zen.ping.unicast.hosts: ["10.0.0.3", 
"10.0.0.4:9300", "10.0.0.5[9300-9400]"] 。 并 非 所 有 的 


Elasticsearch 和 集群 广 点 需要 出 现在 单 播 列 表 中 来 发 现 全 部 的 节点 ， 但 是 
必须 为 每 个 节点 配置 足够 的 地 址 ， 让 其 认识 可 用 的 “ 口 口 相传 ”节点 。 例 
如 ， 如 果 单 播 列 表 中 的 第 一 个 节点 认识 7 个 集群 节点 中 的 3 个 ， 而 单 播 列 
表 中 的 第 二 个 和 点 认识 7 个 和 点 中 的 其 他 4 个 ， 那 么 该 节点 执行 发 现 操 作 
后 能 找到 集群 中 的 全 部 7 个 和 点 。 单 播发 现 的 图 形 化 表示 如 图 9-4 所 示 。 


“你 认识 哪些 节点 ? ” 


“这 些 是 我 认识 的 节点 ” 


“你 认识 哪些 节点 ? ” 


“这 些 是 我 认识 的 节点 ” 


图 9-4 Elasticsearch 使 用 单 播 来 发 现 集群 中 的 其 他 节点 


没有 必要 关闭 单 播发 现 。 如 果 你 只 使 用 广播 发 现 来 查找 
Elasticsearch 世 点 ， 在 配置 文件 中 将 列表 保持 空 日 。 在 发 现 集 群 中 的 部 
分 节点 后 ，Elasticsearch 世 点 将 进行 主 节 点 选举 。 


9.2.3 ”选举 主 节 点 和 识别 错误 


一 旦 集群 中 的 厄 点 发 现 了 彼此 ， 它 们 会 协商 谁 将 成 为 主 太 点 。 主 届 
点 负责 管理 集群 的 状态 ， 也 就 是 当前 的 设置 和 集群 中 分 片 、 索 引 以 及 市 
点 的 状态 。 在 主 世 点 被 选举 出 来 之 后 ， 它 会 建立 内 部 的 ping 机 制 来 确保 
每 个 下 点 在 集群 中 保持 活跃 和 健康 ， 这 被 称 为 错误 识别 (fault 
detection) ， 本 厄 的 最 后 会 详细 介绍 这 一 点 。Elasticsearch 认 为 所 有 的 方 
点 都 有 资格 成 为 主 季 点， 除非 某 个 节点 的 node .master 选项 设置 为 
false 。 本 章 中 ， 当 涉及 如 何 让 搜索 运行 地 更 快 时 ， 我 们 将 讨论 为 什 
么 你 可 能 想 设 置 node .master 选项 ， 以 及 不 同类 型 的 Elasticsearch 闻 
点 。 当 集群 只 有 一 个 节点 的 时 候 ， 该 节点 先 等 待 一段 时 间 ， 如 果 没 有 发 
现任 何其 他 集群 的 和 点 ， 它 就 将 目 己 选 为 主 和 点 。 


对 于 节点 数量 稀少 的 生产 集群 ， 设 置 主 节 点 的 最 小 数量 是 个 不 错 的 
意 。 尽 管 这 个 设置 可 能 使 得 Elasticsearch 看 上 去 可 以 拥有 多 个 主 市 

点 ， 实 际 上 它 是 告诉 Elasticsearch 在 集群 成 为 健康 的 状态 有 前， 集群 中 多 
少 个 节点 有 资格 成 为 主 和 点 。 设置 可 成 为 生 节 点 之 节 丰 的 最 小 数量 可 
以 帮助 你 确保 集群 在 没有 其 全 局 状态 的 情况 下 ， 避 人 免 尝 试 执行 存在 危险 
HIERIE ° 如 果 节 点 数量 不 会 随 着 时 间 而 变化 ， 可 以 将 最 小 数量 设置 为 集 
群 的 总 节点 数 ， 或 者 遵循 一 个 常用 的 规则 ， 将 其 设置 为 集群 季 点 数 除 以 
2 再 加 上 1。 将 minimum_master_nodes 设置 为 高 于 1 的 数量 ， 可 以 预 
REE ENZ (split brain) 的 问题 。 遵 守 常 用 规则 ， 3 个 节 扣 的 集群 
其 minimum_master_nodes 要 设置 为 2 ， 而 对 于 14 个 广 点 的 集群 ， 最 
好 将 其 设置 为 8。 为 了 修改 这 个 设置 ， 修 改 elasticsearch.yml 文 件 中 的 
discovery.zen.minimum_master_nodes ， 将 其 设置 为 符合 集群 


需求 的 数值 


tt 


x 


AX Sal fiat FAR: (通常 是 在 重负 荷 或 网 络 存在 问题 的 情况 下 ) 
Bsdesewreh 和 集群 和 一个 或 多 个 节点 失去 了 和 让 起 的 通信 开始 选举 新 的 主 节点 ， 并 且 继 
续 处 理 请 求 。 这 个 时 候 ， 可 能 有 两 个 不 同 的 Elasticsearch 集 群 相 互 独立 地 运行 着 ， 这 就 是 “ 脑 
裂 ” 一 词 的 由 来 ， 因为 音 一 的 集群 已 经 分 歼 成 了 两 个 不 同 的 部 分 ， 和 左右 大 脑 类 似 。 为 了 防 
止 这 种 情况 的 发 生 ， 你 需要 根据 集群 节点 的 数量 来 设置 
discovery.zen.minimum_master_nodes 。 如 果 节 点 的 数量 不 变 ， 将 其 设置 为 集群 节 
点 的 总 数 ; 否则 将 节点 数 除 以 2 并 加 1 是 一 个 不 错 的 选择 ， 因 为 这 就 意味 着 如 果 一 个 或 多 个 节 
点 失去 了 和 其 他 节点 的 通信 ， 它 a 点 来 形成 新 集群 ， 因 为 对 于 它们 不 能 获 
得 所 需 的 节点 (可 成 为 主 节 点 的 节点 ) 数量 (超过 一 半 ) 


一 旦 你 的 市 点 重新 恢复 并 发 现 了 彼此 ， 使 用 代码 清单 9-2 中 的 cur1l 
命令 ， 就 可 以 查看 集群 选举 了 哪个 节点 作为 主 节点 。 


代码 清单 9-2 ”使 用 cufl 命 令 获 取 和 集群 节点 的 信息 


% curl 'http://localhost:9200/_cluster/state/master_node, nodes? 
pretty' 


"cluster_name" : "elasticsearch", 
"master_node" : "5jDQs-LwRrqyrLm4DS_7wQ", =--- 当 前 主 节点 的 ID 
"nodes" : { 
"5jDQs-LwRrqyrLm4DS_7wQ" : { =-- -集群 中 的 第 一 个 
"name" : "Kosmos", 
"transport_address" : "inet[/192.168.0.20:9300]", 


"attributes" : { } 


ty 

"Rylg633AQmSngbsPZwKgRQ" : { =-- -集群 中 的 第 二 个 节点 
"name" : "Bolo", 
"transport_address" : "inet[/192.168.0.20:9301]", 
"attributes" : { } 


9.2.4 ”错误 的 识别 


现在 你 的 集群 有 两 个 节点 了 ， 包 括 一 个 选举 出 来 的 主 入 点 ， 它 需要 
和 集群 中 所 有 节点 通信 ， 以 确保 一 切 正常 ， 这 称 为 错误 识别 (fault 
detection) 的 过 程 。 主 下 点 ping 集 群 中 所 有 其 他 的 节点 ， 而 且 每 个 节点 
会 ping 主 丰 点 来 确认 无 须 选 举 ， 如 图 9-5 所 示 。 


图 9-5 中 ， 每 个 节点 每 隔 discovery,zen.fd,.ping_interval 
的 时 间 (默认 是 1s ) 发 送 一 个 ping 请 求 ， 等 待 
discovery.zen.fd.ping_timeout 的 时 间 (默认 是 30s ) ， 并 党 
试 最 多 discovery .zen.fd.ping_retries 次 (默认 3 ) , ABE 
布 节 点 失 联 ， 并 且 在 需要 的 时 候 进 行 狐 的 分 厂 路 由 和 主 广 点 选举 。 如 采 
你 的 环境 有 很 高 的 延迟 ， 请 确定 修改 这 些 值 。 例 如 ， 运 行 于 可 能 不 在 同 
一 个 Amazon AWS 区 域 的 ec2 贡 点 上 。 


“你 还 活着 吗 ? ” 


“是 的 ， 我 还 活着 。” 


“你 还 活着 吗 ? ” 


> ff 
没有 应 答 ， 所 以 系统 一 
宣布 该 节点 失 联 


图 9-5 主 市 点 所 进行 的 集群 错误 识 另 


集群 中 的 节 反 宕 机 是 不 能 完全 避免 的 ， 所 以 下 个 划 市 将 讨论 廊 点 被 
RETHA, 以 及 如 何在 不 丢失 数据 的 情况 下 、 在 分 布 式 
ŽNJL | RT ° 


9.3 删除 集群 中 的 节点 


添加 丰 点 是 扩展 的 好 方法 ， 但 是 如 果 Elasticsearch 集 群 中 的 一 个 克 
点 掉 线 了 或 者 被 停机 了 ， 那 义 会 发 生 什么 呢 ? 这 里 使 用 图 9-2 中 3 个 节点 
的 集群 为 例 ， 其 中 包含 了 测试 的 索引 ，5 个 主 分 片 和 每 个 主 分 片 对 应 的 1 
个 副本 分 片 都 分 布 在 这 3 个 和 点 上 。 


让 我 们 假设 系统 管理 员 Joe， 意 外 地 踢 掉 了 节点 Nodeld 的 电源 线 。 
那么 在 节点 Node1 上 的 3 个 分 片 怎么 办 ? Elasticsearch 所 做 的 第 一 件 事 情 
是 自动 地 将 节点 Node2 上 的 test0 和 test3 副本 分 片 转 为 主 分 片 ， 如 
9-6 所 示 。 这 是 由 于 索引 操作 会 首先 更 新 主 分 片 ， 所 以 Elasticsearch 
要 尽力 使 索引 的 主 分 片 正 常 运作 。 


PEA 


Elasticsearch 可 以 选择 任 一 个 副本 分 片 并 将 其 转变 为 主 分 片 。 只 是 在 本 例 中 每 个 主 分 片 
仅 有 一 个 副本 分 片 供 选 择 ， 就 是 节点 Node2 上 的 副本 分 片 。 
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些 副本 分 片 尚 未 分 配 到 某 个 节点 。Elasticsearch 下 一 步 需要 创建 更 多 的 
副本 分 片 来 保持 test 索 引 的 高 可 用 性 。 由 于 所 有 的 主 分 片 现 在 都 是 可 用 
的 ， 节 点 Node2 Etesto 和 test3 主 分 片 的 数据 会 复制 到 节点 Node3 
上 作为 副本 分 片 ， 而 节点 Node3 Etest1 主 分 片 的 数据 会 复制 到 节点 
Node2 ， 如 图 9-7 所 示 。 


a, 
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test0 和 test3 的 副本 分 片 转 变 为 了 主 分 片 


图 9-6 ”节点 宕 机 后 ， 将 可 用 的 副本 分 片 转 为 主 分 睛 


图 9-7 失去 一 个 证 点 后 ， 重 新 创建 副本 分 刻 


一 旦 副本 分 片 被 重新 创建 ， 并 用 于 弥补 损失 的 证 点 ， 那 么 集群 将 重 
新 回归 绿色 的 状态 ， 全 部 的 主 分 片 及 其 副本 分 片 都 分 配 到 了 某 个 节 氮 。 
请 记 住 ， 在 这 个 时 间 段 内 ， 整 个 集群 都 是 可 用 于 搜索 和 索引 的 ， 因 为 实 
际 上 没有 丢失 数据 。 如 有 果 失 去 的 和 点 多 于 1 个 ， 或 者 某 个 没有 副本 分 所 
丢失 了 ， 那 么 集群 束 会 挛 为 红色 的 状态 ， 这 意味 着 某 些 数 据 永远 地 丢失 
了 ， 你 需要 让 集群 重 连 拥有 丢失 数据 的 入 点 ， 或 者 对 丢失 的 数据 重新 建 


立 索 引 。 


忠 副 本 分 片 的 数量 而 言 ， 你 需要 理解 目 己 愿意 承担 多 少 风险 ， 这 一 
扩 非 常 重要 。 有 1 份 副本 分 片 意味 着 集群 可 以 缺失 1 个 让 点 而 不 丢失 数 
据 。 如 果 有 2 个 副本 分 片 ， 可 以 缺失 2 个 节点 而 不 丢失 数据 ， 以 此 类 推 。 
所 以 ， 确 保 你 选择 了 合适 的 副本 数量 中。 备份 你 的 索引 永远 是 个 不 错 
的 主意 ， 第 11 章 谈论 集群 管理 的 时 候 会 再 次 涉及 这 个 主题 。 


你 已 经 了 解 了 增加 或 删除 一 个 节点 会 是 什么 样子 ， 但 是 在 关闭 一 个 
节点 的 情况 下 ， 如 何 避 免 集 群 进入 黄色 的 状态 呢 ? OB SEER TIO 
的 停 用 (decommissioning) ， 这 样 就 可 以 在 不 干扰 集群 使 用 者 的 前 提 
下 ， 将 和 点 从 集群 中 移 除 。 


FATA 
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择 。 可 是 ， 当 集群 进行 例 行 维护 的 了 时候 ， 你 总 是 希望 关闭 某 个 包含 数据 
的 节点 ， 而 同时 不 让 集群 进入 黄色 的 状态 。 也 许 硬件 过 于 老 旧 ， 或 者 处 
理 的 请 求 流量 有 所 下 降 ， 总 之 你 不 再 需要 这 么 多 和 点 了 。 可 以 通过 杀 掉 
Java 进 程 来 停止 节点 ， 然 后 让 Elasticsearch 将 数据 恢复 到 其 他 节点 ， 但 是 
如 果 你 的 索引 没有 副本 分 片 的 时 候 怎 么 办 ? 这 意味 着 ， 如 果 不 预 先 将 数 
据 转移 ， 关 闭 世 点 加 会 让 你 丢失 数据 ! 


值得 庆 邓 的 是 ，Elasticsearch 有 一 种 停 用 节点 (decommission) 的 方 
式 ， 告 诉 集 群 不 要 再 分 配 任何 分 片 到 某 个 或 一 组 节点 上 。 在 3 个 节点 的 
例子 中 ， 假 设 节 点 Node1 、 节 点 Node2 和 节点 Node3 的 IP 地 址 分 别 是 
192.168.1.10、192.168.1.11 和 192.168.1.12。 如 果 你 想 关 闭 节 点 Nodel 的 
同时 保持 集群 为 绿色 状态 ， 可 以 先 停 用 和 点 ， 这 个 操作 会 将 待 停 用 点 
上 的 所 有 分 片 转移 到 集群 中 的 其 他 节点 。 系 统 通过 集群 设置 的 临时 修 
改 ， 来 为 你 实现 和 点 的 停 用 ， 如 代码 清单 9-3 所 示 。 


代码 清单 9-3” 停 用 集群 中 的 节点 


curl -XPUT localhost:9200/_cluster/settings -d 'f{ 
"transient" : { <<--- 这 个 设置 是 短暂 的 ， 集 群 重启 后 不 再 有 效 
"cluster.routing.allocation.exclude._ip" : "192.168.1.10" =- 


--192.168.1.10 是 节点 1 的 IP 地 址 


} 
} 1 


一 旦 运行 了 这 个 命令 ，Elasticsearch 将 待 停 用 节点 上 的 全 部 分 片 开 
台 转 移 到 集群 中 的 其 他 和 点 上 。 你 可 以 通过 这 个 方法 来 查看 分 片 位 于 集 
群 中 的 何 处 : 首先 使 用 _nodes 端 点 来 确定 集群 节点 的 ID ， 然 后 查看 集群 


的 状态 ， 来 了 解 集群 中 每 个 分 片 目前 分 配 到 哪里 。 请 参考 代码 请 单 9-4 
中 的 命令 输出 样 例 。 


代码 清单 9-4 ”通过 集群 的 状态 来 确定 分 片 的 位 置 


% curl -s 'localhost:9200/_nodes?pretty' -~--- 首 先 获取 集群 中 节点 的 列表 


"cluster_name" : "elasticsearch", 
"nodes" : { 
"1Fd3ANXiQlug-@eJztvaeA" : { <---7 SAYME—ID 
"name" : "Hayden, Alex", 
"transport_address" : "inet[/192.168.1.10:9300]", =--- 停 机 节点 
的 IP 地 址 

"ip": "192.168.1.10", 
"host" : "Perth", 
"version" : "1.5.0", 
"http_address" : "inet[/192.168.1.10:9200]" 


了 
"JGG7qQmBTB-LNfoz7VS97Q" : { 
"name" : "Magma", 
"transport_address" : "inet[/192.168.1.11:9300]", 
"ip": "192.168.1.11", 
"host" : "Xanadu", 
"version" : "1.5.0", 
"http_address" : "inet[/192.168.1.11:9200]" 
ty 
"MCUL2T6VTSOGEAJSEuI-Zw" : { 
"name" : "Toad-In-Waiting", 
"transport_address" : "inet[/192.168.1.12:9300]", 
"ip": "192.168.1.12", 
"host" : "Corinth", 
"version" : "1.5.0", 
"http_address" : "inet[/192.168.1.12:9200]" 


% curl 'localhost:9200/_cluster/state/routing_table, routing_nodes? 
pretty’ =--- 获 取 一 个 过 滤 后 的 集群 状态 


{ 
"cluster_name" : "elasticsearch", 
"routing table" : { 
"indices" : { 
"test" : { 
"shards" : { 


- - -缩写 以 适应 这 个 页 面 的 大 小 


a 


} 
} 
}, 


"routing nodes" : { 
"unassigned" : [ ], 
"nodes" : { 


fea rere aren : [ { =---- 这 个 键 列 晶 
JJJ 


"state" : "STARTED", 
"primary" : true, 
"node" : "JGG7qQMBTB-LNfoz7VS97Q", 
"relocating_node" : null, 
"shard" : 0, 
"index" : "test" 
}, 1 
"state" : "STARTED", 
"primary" : true, 
"node" : "JGG7qQmBTB-LNfoz7VS97Q", 
"relocating_node" : null, 
"shard" : 1, 
"index" : "test" 
} 1 
"state" : "STARTED", 
"primary" : true, 
"node" : "JGG7qQmBTB-LNf0z7VS97Q", 
"relocating_node" : null, 
"shard" : 2, 
"index" : "test" 
oek 
"McCUL2T6vVTSOGEAJjSEuI-Zw" : [ { 
"state" : "STARTED", 
"primary" : false, 
"node" : "MCUL2T6VTSOGEAjSEuI-Zw", 
"relocating _node" : null, 
"shard" : 0, 
"index" : "test" 
}, 1 
"state" : "STARTED", 
"primary" : false, 
"node" : "MCUL2T6VTSOGEAjSEuI-Zw", 
"relocating_node" : null, 
"shard" : 1, 
"index" : "test" 
}, 1 
"state" : "STARTED", 
"primary" : false, 
"node" : "MCUL2T6VTSOGEAjSEuI-Zw", 


"relocating_node" : null, 


上 了 每 


每 个 


节点 以 及 分 配 在 j 


性 


"shard" : 2, 


"index" : "test" 
了 ，， 
} 
ty 
"allocations" : [ ] 


文 个 代码 清单 好 长 啊 ! 别 担 心 ， 本 章 稍 后 我 们 将 讲述 称 为 _cat API 
的 接口 ， 它 是 一 个 可 读 性 更 好 的 版 本 。 


从 这 里 可 以 看 出 ， 在 1Fd3ANXiQ1lug-0eJztvaeA 节点 上 没有 分 
片 ， 这 正 是 被 停机 的 节点 192.168.1.10， 所 以 现在 停止 这 个 节点 上 的 
Elasticsearch 是 安全 的 ， 无 须 让 集群 进入 非 绿 色 的 状态 。 该 过 程 可 以 重 
复 ， 每 次 停止 一 个 你 想 关 闭 的 节点 ， 或 者 也 可 以 使 用 一 个 通过 喜 号 分 隔 
的 了 地址 列表 ， 一 次 停止 多 个 节点 。 请 记 住 ， 集 群 中 的 其 他 节点 必须 有 
足够 的 磁盘 和 内 存 来 处 理 分 片 的 分 配 ， 所 以 在 停止 多 个 节点 之 前 ， 做 出 
相应 的 计划 来 确保 你 有 足够 的 资源 。 


很 好 的 问题 ! ASK, ee a es atl a 
理 数 据 以 及 索引 备份 了 多 少 副 本 。 通 is 常 来 说 ， 一 个 Lucene 索 引 (也 就 是 一 个 Elasticsearch 分 

Fr) 不 能 处 理 多 于 21 亿 篇 文档 ， 或 者 多 于 2740 亿 的 唯一 词 条 ， 但 是 在 达到 这 个 极限 之 前 ， 你 
上 可 能 就 已 经 没有 足够 的 磁盘 空间 ] 确定 是 否 能 将 数据 存储 二 单个 过 引 内 的 最 好 方式 E 
1 一 个 非 生产 环境 中 党 试 ， 按 需 调整 参数 获得 理想 的 性 和 ° 一 旦 索引 创建 ， 你 就 不 外 8 修改 主 分 
M ear 只 能 修改 副本 分 片 的 数量 ， 所 以 请 事先 计划 周详 


sin 


现在 你 已 经 理解 了 如 何 添加 节点 并 删除 集群 中 的 节点 ， 接 下 来 谈论 
一 下 如 何 升级 Elasticsearch 的 节点 。 


[B] ”由 于 硬件 资源 是 有 限 的 ， 你 不 可 能 无 限制 增加 副本 。 你 需要 合理 
地 均衡 可 用 性 和 资源 这 两 者 。 这 也 是 为 什么 原著 作者 说 你 需要 理解 目 己 
愿意 承担 多 少 风险 。 一 一 译 者 注 


9.4 ”升级 Elasticsearch 的 节点 


对 于 每 个 Elasticsearch 的 安装 而 言 ， 总 有 需要 升级 到 最 新 版 的 时 
候 。 我 们 推荐 你 总 是 运行 最 新 版 的 Elasticsearch， 因 为 经 党 有 新 的 特性 
加 入 ， 同 时 还 修复 了 一 些 bug。 根 据 你 的 环境 限制 ， 升 级 有 着 或 多 或 少 


的 复杂 性 。 


在 介绍 升级 的 指导 之 前 ， 理 解 升级 Elasticsearch 实 例 的 一 些 限 制 是 非常 重要 的 。 一 旦 你 
升级 了 某 台 Elasticsearch 服 务 器 ， 而 且 新 的 文档 被 写 入 ， 那 么 它 再 也 无 法 降级 。 当 升级 生产 
环境 的 实例 时 ， 你 应 该 在 进行 升级 前 备份 数据 。 第 11 章 将 讨论 更 多 关于 数据 备份 的 内 容 。 


男 一 件 需 要 考虑 的 重要 事项 是 ， 尺 管 Elasticsearch 可 以 轻松 处 理 一 个 混合 版 本 的 环境 ， 
还 是 存在 这 样 的 情况 : 不 同 的 JVM 版 本 序列 化 信息 的 方法 不 同 。 所 以 我 们 建议 不 要 在 同一 个 
Elasticsearch 集 群 中 混用 不 同 版 本 的 JVM 。 


升级 一 个 Elasticsearch 集 群 最 简单 的 方法 是 关闭 所 有 的 和 点， 然后 
使 用 你 之 前 的 任何 方法 来 升级 每 个 Elasticsearch 安 装 。 例 如 ， 解 压 .tar.gz 
后 级 的 分 发 包 ， 或 者 ， 如 果 你 使 用 基于 Debian 的 系统 ， 通 过 dpkg 来 安 
闭 .deb 后 级 的 包 。 一 旦 每 个 厄 点 都 被 升级 ， 束 可 以 重启 整个 集群 并 等 答 
Elasticsearchj 进 入 绿色 的 状态 。 瞧 瞧 ， 升 级 完成 了 ! 


并 非 每 次 都 能 这 么 和 干 。 很 多 情况 下 ， 即 使 在 非 高 峰 的 时 候 ， 停 机 也 
是 不 能 容忍 的 。 值 得 庆 邓 的 是 ， 你 可 以 在 服务 索引 和 搜索 请 求 的 同时 ， 
进行 轮流 重启 来 升级 Elasticsearch 集 群 。 


9.4.1 进行 轮流 重启 


轮流 重启 (rolling restart) 是 男 一 种 重启 集群 的 方式 ， 它 是 为 了 在 
不 牺牲 数据 可 用 性 的 前 提 下 ， 升 级 一 个 市 ee ae 
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点 ， 而 无 须 关 闭 整 个 集群 。 这 个 过 程 比 完全 重启 要 稍微 复杂 一 些 ， 因 为 


需要 多 个 步骤 。 


进行 轮 流 重 启 的 第 一 步 是 决定 当 每 个 单独 方 点 不 在 运行 的 上 时候， ,大 
否 和 希望 Elasticsearch 目 动 均衡 分 片 。 对 于 升级 而 言 ， 大 多 数 的 人 不 硕 :希望 
Elasticsearch 在 广 点 离开 集群 的 情况 下 开始 自动 恢复 ， 因 为 这 意味 着 每 
个 志 点 都 要 进行 重新 均衡 。 实 际 上 上， 数据 还 在 那里 ， 节 点 只 是 需要 重启 
然后 再 次 加 入 集群 而 变 为 可 用 。 


对 于 多 数 人 来 说 ， 升 级 过 程 中 不 在 集群 中 转移 数据 是 很 合理 的 。 可 
以 通过 设置 Cluster ,routing,allocation.enable 选项 为 none 
做 到 这 一 点 。 为 了 清晰 起 见 ， 整 个 过 程 梳理 如 下 。 


天 财 集 群 的 分 配 设置 。 

关闭 即将 升级 的 节点 。 
FET 

局 动 升级 后 的 节点 。 

等 待 升 级 后 的 世 点 加 入 集群 。 
开局 集群 的 分 配 设置 。 

等 待 集 群 恢复 绿色 的 状态 。 


为 每 个 需要 升级 的 节操 重复 这 个 过 程 。 为 了 关闭 集群 的 分 配 设 置 ， 
可 以 使 用 集群 的 设置 API 进 行 如 下 设置 。 


curl -XPUT 'localhost:9200/_cluster/settings' -d '{ 
"transient" : { 
"cluster.routing.allocation.enable" : "none" =---- 将 这 个 设置 为 none 


意味 着 分 片 不 会 在 集群 中 进行 分 配 


} 
} 1 


一 旦 你 运行 了 这 个 命令 ，Elasticsearch 就 不 会 在 集群 中 重新 均衡 分 
片 。 例 如 ， 如 果 索 引 的 一 个 主 分 厂 由 于 其 所 在 主机 的 关闭 而 丢失 ， 那 么 
Elasticsearch 仍 然 会 将 副本 分 片 转 变 为 狐 的 主 分 片 ， 但 是 不 会 创建 狐 的 
ee o EAAS BBY DA HR AH FAA Elasticsearch i Ft 
进行 升级 。 


节点 升级 完毕 后 ， 请 确保 重新 开局 了 集群 的 分 配 设置 ， 人 否则 你 会 奇 
怪 为 什么 从 此 以 后 Elasticsearch 不 会 目 动 复制 数据 ! 可 以 通过 设置 
cluster.routing.allocation.enable 选项 为 all 来 重新 开启 分 
Bc, Bit: 


curl -XPUT 'localhost:9200/_cluster/settings' -d '{ 
"transient" : { 
"cluster.routing.allocation.enable" : "all" =---- 将 这 个 选项 设置 为 


all 意味 着 所 有 的 分 片 都 可 以 分 配 ， 包 括 主 分 片 和 副本 分 片 。 
} 


| | 

对 于 集群 中 每 个 升级 的 节点 ， 都 需要 执行 开始 和 收尾 这 两 个 步 又 ， 
即 关闭 分 配 和 重启 分 配 。 如 果 只 在 整个 升级 开始 和 结束 的 时 候 各 执行 一 
次 ， 那 么 每 次 升级 一 个 和 点 的 时 候 ，Elasticsearch 不 会 分 配 该 万 点 上 的 
分 片 ， 一 旦 升级 多 个 万 点 集群 承 可 能 会 变 为 红色 状态 。 每 个 节点 升级 
后 ， 重 新 开启 分 配 选 项 并 等 待 集群 变 为 绿色 状态 ， 这 样 当 进行 下 一 个 市 
点 升级 的 上 时候， 你 的 数据 就 是 可 分 配 、 可 用 的 。 为 每 个 待 升 级 的 节点 重 
复 这 些 步骤 ， 直 到 你 升级 了 整个 集群 。 


在 本 广 还 有 件 事情 要 说 明 ， 那 就 是 没有 副本 分 片 的 索引 。 因 为 之 前 
的 例子 都 是 考虑 至 少 有 一 个 副本 分 片 的 数据 ， 所 以 市 点 的 下 线 不 会 阻碍 
数据 的 访问 。 如 果 你 的 索引 没有 任何 副本 分 片 ， 可 以 使 用 9.3.1 市 介绍 的 
停 用 (decommissioning) 步骤 ， 在 关闭 节点 进行 升级 前 ， 先 转移 它 上 面 
的 全 部 数据 并 停 用 它 。 


9.4.2 ”最 小 化 重启 后 的 恢复 时 间 


你 可 能 注意 到 了 在 升级 单个 廊 点 时 ， 即 使 采取 了 关闭 和 开启 分 配 选 
项 的 步骤 ， 集 群 仍然 需要 一 些 时 间 回 归 到 绿色 的 状态 。 很 不 位 ， 这 是 由 
于 Elasticsearch 使 用 的 复制 策略 是 针对 每 个 分 片 的 分 段 ， 而 不 是 文档 。 
这 了 驶 意味 着 ， 当 Elasticsearch 贡 点 发 送 副 本 数据 时 会 问 “ 你 有 分 段 
segments_1 吗 ? ”如 果 没 有 这 个 文件 ， 或 者 文件 不 一 致 ， 整 个 分 段 文 件 
都 会 被 复制 向 。 在 文档 都 是 相同 的 情况 下 ， 大 量 的 数据 被 复制 。 在 主 
分 片 和 副本 分 片 之 间 复 制 数 据 的 时 候 ，Elasticsearch 不 得 不 复制 任何 不 
同 的 文件 ， 除 非 它 有 办 法 验证 写 入 分 段 文件 的 最 后 一 篇 文档 。 


有 两 种 不 同 的 方法 使 得 主 分 片 和 副本 分 片上 的 分 段 文件 完全 相同 。 
第 一 种 是 使 用 第 10 草 我 们 将 要 谈 及 的 优化 API， 它 为 主 分 请 和 副本 分 户 
创建 一 个 单独 的 、 大 的 分 块 。 第 二 种 十 将 副本 分 片 的 数量 切换 到 0 然后 
再 切换 到 某 个 更 高 的 值 。 这 确保 了 所 有 副本 分 片 拥有 和 主 分 片 同样 的 分 
段 文 件 。 不 过 这 意味 着 短期 内 ， 你 只 有 一 个 单独 的 数据 副本 ， 所 以 在 生 
产 环境 中 请 慎 用 ! 


最 后 ， 为 了 最 小 化 恢复 的 时 间 ， 在 进行 节点 升级 的 时 候 ， 你 也 可 以 
停止 将 新 的 数据 索引 到 集群 。 


现在 ， 我 们 已 经 讨论 了 市 点 的 升级 ， 接 下 来 了 解 一 个 很 有 帮助 的 
API 接 口 ， 它 让 我 们 可 以 获得 更 为 友好 的 集群 信息 : _cat API ° 


9.5 ”使 用 _cat API 


使 用 9.1 节 、9.2 闻 和 9.3 市 所 介绍 的 curl 命令 查看 集群 状态 是 很 棒 
的 选择 ， 可 是 有 的 时 候 可 读 性 更 好 的 输出 是 更 有 帮助 的 (如 果 你 不 信 ， 
试 试 在 大 型 集群 上 使 用 curl 来 访问 http://localhost:9200/_cluster/state 链 
接 ， 看 看 返回 了 多 少 信息 ! ) 。 这 就 是 为 什么 需要 更 方便 的 _cat API 
接口 。 这 个 _cat API 提 供 了 很 有 帮助 的 诊断 和 调试 工具 ， 将 数据 以 更 
好 的 可 读 性 打印 出 来 ， 而 不 是 让 你 不 停 地 翻阅 一 个 巨大 的 JSON 回 复 。 
代码 清单 9-5 展 示 了 其 中 两 个 命令 ， 包 括 健康 状态 和 市 点 列表 ， 对 等 的 
cURL 命令 也 列 出 用 于 进行 比较 。 


代码 清 


9-5 ”使 用 _cat API 来 查看 集群 的 健康 状态 和 市 点 


curl -XGET 'localhost:9200/_cluster/health?pretty' <---f#Hcluster 


health API 查 看 集群 健康 状态 

{ 
"cluster_name" : "elasticsearch", 
"status" : "green", 
"timed_out" : false, 
"number_of_nodes" : 2, 
"number_of_data_nodes" : 2, 
"active_primary_shards" : 5, 
"active_shards" : 10, 
"relocating shards" : ©, 
"initializing_shards" : 0, 
"unassigned_shards" : 0 

} 

% curl -XGET 'localhost:9200/_cat/health?v' <---({# 

群 健康 状态 


J cat API 查看 集 


cluster status node.total node.data shards pri relo init 
unassignelasticsearch red 2 2 42 22 0 0 
23 


% curl -XGET 
‘localhost :9200/_cluster/state/master_node,nodes&pretty' «<---{# A 
JSON API 检索 节点 列表 以 及 哪个 节点 是 主 节 点 


"cluster_name" : "elasticsearch", 


"master_node" : "5jDQs-LwRrgqyrLm4DS_7wQ", 
"nodes" : { 
"5jDQs-LwRrqyrLm4DS_7wQ" : { 
"name" : "Kosmos", 
"transport_address" : "inet[/192.168.0.20:9300]", 
"attributes" : { } 
tr 
"Rylg633AQmSngqbsPZwkKgqRQ" : { 
"name" : "Bolo", 
"transport_address" : "inet[/192.168.0.21:9300]", 
"attributes" : { } 


% curl -XGET 'localhost:9200/_cat/nodes?v' ~--- 使 用 cat API 做 同样 的 
事情 。 其 中 master 列 拥有 “m” 标 记 的 节点 就 是 主 节点 


host heap.percent ram.percent load node.role master name 
Xanadu. local 8 56 2.29 d z Bolo 
Xanadu. local 4 56 2.29 d m Kosmos 


Ke S health 和 nodes 的 端点 ，_cat API 还 有 很 多 特性 ， 它 们 对 于 
调试 集群 的 各 个 方面 都 是 很 有 帮助 的 。 你 可 以 运行 curl 
'localhost:9200/_cat' 来 查看 所 文 持 的 _cat API 接 口 的 完整 清 
PAL 


APRS WAT, eA MEA cat API 以 及 它们 能 做 什么 ， 别 忘记 看 看 其 他 


的 ! 


e allocation 


展示 分 配 到 每 个 节点 的 分 片 数量 
统计 整个 集群 或 索引 中 文档 的 数量 。 


。 count 

。 health 一 一 展示 集群 的 健康 状态 。 

。 indices 展示 现 有 索引 的 信息 。 

。 master 显示 目前 被 选 为 主 节 点 的 节点 。 

。 nodes 一 一 显示 集群 中 所 有 节点 的 不 同 信 息 。 

。 recovery: 显示 集群 中 正在 进行 的 分 斤 恢 复 状 态 。 
。 Shards 展示 集群 中 分 片 的 数量 、 大 小 和 名字 © 

。 plugins 一 一 展示 已 安装 插件 的 信息 。 


当 我 们 向 集群 添加 市 点 的 时 候 ， 为 什么 不 使 用 代码 清单 9-6 中 的 _cat 
API 看 看 分 片 是 如 何在 和 点 中 分 布 的 呢 ? 和 代码 清单 9-2 中 的 curl 命令 
相 比 ， 这 种 查看 分 片 在 集群 中 如 何 分 配 的 方法 更 容易 。 


代码 清单 9-6 ”使 用 _cat API 来 显示 分 片 的 分 配 情 ; 


Su 


% curl -XGET 'localhost:9200/_cat/allocation?v' <--- 
allocation 的 命令 列 出 了 每 个 节点 上 的 分 片 数量 

shards disk.used disk.avail disk.total disk.percent host 
ip node 


2 196.5gb 36.1gb 232.6gb 84 
Xanadu. local 

192.168.192.16 Molten Man 

2 196.5gb 36.1gb 232.6gb 
Xanadu. local 

192.168.192.16 Grappler 


% curl -XGET 'localhost:9200/_cat/shards?v' 
index shard prirep state docs store ip 
node =--- 注 意 所 有 的 主 分 片 都 在 同一 个 节点 上 ， 副 本 分 片 在 另 一 个 节点 上 


[5] 


get-together 0 STARTED 12 15.1kb 
192.168.192.16 Molten Man 

get-together 0 STARTED 12 15.1kb 
192.168.192.16 Grappler 

get-together 1 STARTED 8 11.4kb 
192.168.192.16 Molten Man 

get-together 1 STARTED 8 11.4kb 
192.168.192.16 Grappler 


在 执行 9.3.1 世 所 介绍 的 售 用 之 后 ， 使 用 _cat/VallLocation 和 
_cat/shards API 也 是 确定 什么 时 候 节 点 可 以 被 安全 地 关闭 的 好 方 
法 。 比 较 一 下 代码 清单 9-2 中 cun 命 令 的 输出 和 代码 清单 9-6 中 命令 的 输 
出 ， 显 然 阅读 _cat API 的 输出 更 轻松 ! 


现在 你 可 以 知道 分 片 位 于 集群 中 的 何 处 了 ， 接 下 来 我 们 使 用 更 多 的 
时 间 来 讨论 应 该 如 何 规划 Elasticsearch 集 群 ， 并 充分 利用 节点 和 数据 。 


[4] ” 某 个 方太 在 升级 的 时 候 会 离开 集群 ， 其 间 集 群 内 部 的 索引 可 能 会 
发 生变 化 ， 所 以 导致 节点 重新 回归 后 可 能 需要 同步 索引 。 译 者 注 


[5] ”虽然 两 个 节点 的 人 P 是 一 样 的 ， 但 是 节点 名 称 不 同 ， 是 两 个 
Elasticsearch 实 例 。 一 一 译 者 注 


96 ”扩展 策略 


将 节点 加 入 集群 以 增加 性 能 ， 看 上 去 很 镜 单 ， 但 是 稍微 做 些 计划 会 
使 得 你 在 获取 集群 最 佳 性 能 的 这 条 道路 上 走 得 更 远 。 


Elasticsearch 的 使 用 方式 各 有 各 的 不 同 ， 所 以 需要 根据 如 何 索 引 和 
搜索 数据 ， 为 集群 选择 最 佳 的 配置 。 通 销 来 说 ， 规 划 生 产 环境 的 
Elasticsearch 集 群 至 少 有 3 件 事 情 需 要 考虑 : 过 度 分 片 、 将 数据 切 分 为 索 
引 和 分 片 、 最 大 化 吞吐 量 。 


9.6.1 过 度 分 片 


主 我 们 从 过 度 分 片 开 始 说 起 。 过 度 分 片 (over-sharding) 是 指 你 有 
意 地 为 索引 创建 大 量 分 片 ， 用 于 未 来 增加 和 点 的 过 程 。 使 用 图 片 可 以 很 
好 地 展示 这 一 点 ， 来 看 看 图 9-8 。 


在 图 9-8 中 ， 你 已 经 创建 了 拥有 单一 分 片 、 无 副本 分 片 的 get- 
together 索 3 引 。 但 是 ， 在 增加 了 男 外 一 个 市 点 之 后 义 会 发 生 什么 ? 


哎呀 ! 你 已 经 完全 失去 了 增加 集群 节操 所 带 来 的 好 处 了 。 由 于 全 部 
的 索引 和 查询 负载 仍然 是 由 拥有 单一 分 片 的 市 点 所 处 理 ， 所 以 即使 增加 
了 一 个 节 太 你 也 无 法 进行 扩展 。 因 为 分 片 是 Elasticsearch 所 能 移动 的 最 
小 单位 ， 所 以 确保 你 至 少 拥有 和 集群 节点 一 样 多 的 主 分 片 总 是 个 好 主 
意 。 如 有 果 现 在 有 一 个 5 个 下 点 、11 个 主 分 片 的 集群 ， 那 么 当 你 需要 加 入 
更 多 的 证 点 来 处 理 额外 的 请 求 时 ， 就 有 成 长 的 空间 。 使 用 同样 的 例子 ， 
如 采 你 突然 需要 多 于 11 个 的 和 点 ， 束 不 能 在 所 有 的 市 点 中 分 发 主 分 片 ， 
因为 市 点 的 数量 将 会 超出 分 片 的 数量 。 


get-together0 get-together0 


入 点 2 是 空 的 ， 因 为 没 
分 片 可 以 移动 到 这 里 。 


图 9-8 ”拥有 单一 分 片 的 单一 广 点 和 试图 扩展 单一 分 片 的 两 个 六 点 


你 可 能 会 说 :“ 这 很 容易 解决 ， 我 就 创建 一 个 有 100 个 主 分 厂 的 索 

S|! ”一 开始 的 时 候 ， 这 看 上 去 是 个 好 主意 ， 但 是 Elasticsearch 管 理 每 个 
分 片 都 隐 舍 着 额外 的 开销 。 这 是 因为 正如 你 在 第 1 章 所 看 到 的 那样 ， 
个 分 片 都 是 完整 的 Lucene 索 引 ， 它 需要 为 索引 的 每 个 分 段 创建 一 些 文件 
描述 符 ， 增 加 相应 的 内 存 开销 。 如 果 为 索引 创建 了 过 多 的 分 片 ， 可 能 会 
占用 了 本 来 支撑 性 能 的 内 存 ， 或 者 触及 机 妖 文 件 描述 符 或 内 存 的 极限 。 
此 外 ， 在 压缩 数据 的 时 候 ， 需 要 将 数据 分 为 100 份 不 同 的 内 容 ， 同 合理 
切 分 相 比 这 样 操作 会 降低 压缩 的 比例 。 


值得 注意 的 是 ， 没 有 对 所 有 案例 适用 的 完美 分 片 -索引 比例 。 
Elasticsearch 选 择 的 默认 设置 是 5 个 分 片 ， 对 于 普通 的 用 例 是 不 错 的 主 
意 ， 但 是 考 虚 你 的 规划 在 将 来 是 如 何 增长 (或 缩减 ) 所 建 分 片 的 数量 ， 
这 总 是 很 件 重 要 的 事情 。 不 要 忘记 : 一 旦 包含 某 些 数量 分 片 的 索引 被 创 
建 ， 其 主 分 片 的 数量 永远 是 不 能 改变 的 ! 你 不 会 想 处 于 这 种 境地 的 : 由 
于 事先 没有 充分 的 规划 ， 导 致 大 部 分 的 数据 不 得 不 重建 ，6 个 月 的 数据 
RTE 。 在 下 一 章 中 深入 讨论 索引 的 时 候 ， 我 们 将 谈 及 更 多 关于 此 的 内 
谷 o 


即使 创建 索引 的 分 片 数 量 相 同 ， 你 还 需要 决定 如 何 切 分 数据 ， 将 它 
们 分 配 在 Elasticsearch 的 索引 中 。 


9.6.2 ”将 数据 切 分 为 索引 和 分 片 


不 于 的 是 ， 现 在 还 没有 方法 让 我 们 增加 或 者 减少 某 个 索引 中 的 主 分 
片 数 量 ， 但 是 你 总 是 可 以 对 数据 进行 规划 ， 让 其 横 跨 多 个 索引 。 这 是 另 
一 种 完全 合理 的 切 分 数据 的 方式 。 以 我 们 的 get-together 为 例 ， 没 有 什么 
可 以 阻止 你 为 每 个 不 同 的 活动 举办 城市 创建 一 个 索引 。 例 如 ， 如 果 希 望 
纽约 (New York) 比 院 克拉 门 托 (Sacramento) 举办 更 多 的 活动 ， 你 可 
以 为 sacramento 索 引 创建 2 个 主 分 片 ， 而 为 newyork 索 引 创建 4 个 主 分 片 ， 
或 者 可 以 将 数据 以 日 期 来 分 段 ， 为 每 个 活动 举办 的 年 份 创 建 索引 : 
2014、2015 和 2016 等 。 以 这 种 方式 将 数据 分 段 ， 对 于 搜索 同样 有 所 大 
助 ， 因 为 分 段 将 恰当 的 数据 放 在 恰当 的 位 置 。 如 果 顾 客 只 希望 搜索 2014 
es a 你 只 需要 搜索 相应 的 索引 ， 而 不 是 整个 get- 
together #5] ° 


使 用 索引 进行 规划 的 另 一 种 方式 是 别名 。 别 名 (alias) 就 像 指 向 某 
个 稼 引 或 一 组 索引 的 指针 。 别 名 也 允许 你 随时 修改 其 所 指 回 的 索引 。 对 
于 数据 按照 语义 的 方式 来 切 分 ， 这 一 点 非 常 有 用 。 你 可 以 创建 一 个 别名 
称 为 去 年 ， 指 向 2015， 当 2016 年 1 月 1 日 到 来 ， 束 可 以 将 这 个 别名 指 疝 
2015 年 的 索引 。 当 索引 基于 日 期 的 信息 时 (就 像 日 志文 件 ，， 这 项 技术 
古 很 常用 的 ， 如 此 一 来 数据 就 可 以 按照 每 月 、 每 周 、 每 日 等 日 期 来 分 
段 ， 而 每 次 分 段 过 时 的 时 候 , “当前 ”的 别名 永远 可 用 来 指向 应 该 被 搜索 
的 数据 ， 而 无 须 修改 待 搜索 的 索引 之 名 称 。 此 外 ， 别 名 拥有 惊人 的 灵活 
， 而 且 几 乎 没有 额外 人 负载， 所 以 值得 笑 试 。 本 章 稍 后 将 深入 谈论 别 


当 创建 索引 的 时 候 ， 不 要 起 记 由 于 每 个 索引 有 目 己 的 分 片 ， 你 的 操 
作 仍 然 会 导致 创建 分 片 的 负载 ， 所 以 请 确保 不 要 使 用 过 多 的 索引 来 创建 
过 多 的 分 片 ， 不 要 占用 处 理 请 求 的 资源 。 一 旦 你 理解 了 数据 是 如 何在 集 
群 中 分 布 的 ， 束 可 以 开始 调整 节点 的 配置 ， 最 大 化 你 的 吞吐 量 。 


9.6.3 BAAS 


最 大 化 否 吐 量 是 最 为 模糊 的 词语 之 一 ， 意 味 着 相当 多 的 含义 。 你 试 
图 最 大 化 索引 的 吞吐 量 ? 还 是 让 搜索 更 快 一 些 ” 一 次 执行 多 次 搜索 ? 可 
采用 不 同 的 方式 来 调节 Elasticsearch 使 其 完成 每 项 任务 。 例 如 ， 如 采 你 
接受 了 上 千 的 新 分 组 和 活动 ， 如 何 尽快 地 索引 它们 ? 加 速 索 引 的 一 个 方 
法 是 临时 地 减少 集群 中 副本 分 片 的 数量 。 索 引 数 据 的 时 候 ， 上 默认 情 况 
下 ， 在 数据 更 新 到 主 分 片 和 所 有 副本 分 片 之前， 请求 是 不 会 完成 的 。 所 


A, FES S| GT BCR RAR Sp A RERO 《长 至 是 0， 如 有 果 你 愿意 承 
担 风 险 ) 是 有 利 的 ， 然 后 在 集中 索引 阶段 结束 后 将 这 个 数量 重新 增加 为 


1 个 或 多 个 。 


那么 搜索 的 时 候 呢 ? 通过 加 入 更 多 的 副本 分 片 ， 搜 索 可 以 更 快 ， 这 
是 因为 无 论 是 主 分 片 还 是 副本 分 片 都 可 以 用 于 搜索 。 为 了 解释 这 一 点 ， 
请 参考 图 9-9， 它 展示 了 一 个 3 节点 的 集群 ， 其 中 最 后 一 个 节 扩 无 法 处 理 
搜索 的 请 求 ， 直 到 它 拥 有 了 相应 数据 的 副本 。 


但 是 ， 不 要 起 记 了 在 Elasticsearch 和 集群 中 创建 更 多 的 分 片 确实 增加 
了 少量 的 文件 描述 符 和 内 存 负 载 。 如 果 搜 索 请 求 的 量 太 大 ， 集 群 中 的 节 
点 很 难 应 付 ， 那 么 考虑 加 入 点 时 将 这 些 和 点 的 node .data 和 
node ,master 设置 为 false 。 这 些 节 点 就 可 以 被 用 于 处 理 不 断 清 入 的 
请 求 ， 将 请 求 分 发 到 数据 节点 ， 收 集 返 回 的 结果 e 。 而 另 一 方面 ， 搜 
索 分 片 的 数据 和 点 则 不 必 处 理 和 搜索 客户 端 之 间 的 连接 ， 只 需要 搜索 分 
片 就 行 。 第 10 章 ， 我 们 将 讨论 更 多 加 速 索 引 和 搜索 的 不 同方 式 。 


所 有 的 数据 副本 都 可 以 处 理 查询 ， 
在 这 个 例子 中 节点 1 和 节点 2 上 的 


副本 都 可 以 


节点 3 没有 get-together0 分 片 
的 副本 ， 所 以 它 无 法 处 理 搜索 


的 请 求 \ 


get-together0 


节点 1 节点 2 节点 3 


现在 有 更 多 的 数据 副本 了 ， 所 以 有 
更 多 的 节点 可 以 处 理 搜索 请 求 了 现在 多 了 一 个 副本 分 片 ， 节 点 3 
也 可 以 执行 查询 和 聚集 了 


CTIS ET 


图 9-9 额外 的 副本 分 片 会 处 理 搜索 和 聚集 


[6] 这些 节点 只 会 处 理 客户 端 请 求 的 连接 ， 而 不 会 像 数据 节点 那样 搜 
索 分 片 。 一 一 译 者 注 


9.7 别名 


现在 ， 讨 论 一 下 最 容易 使 用 、 可 能 也 是 最 有 用 的 Elasticsearch 特 
性 : 别名 。 别 名 正如 其 名 ， 它 们 是 你 使 用 的 指针 或 名 称 ， 对 应 于 1 个 或 
多 个 具体 的 索引 。 由 于 其 提供 的 灵活 性 ， 别 名 在 扩展 集群 和 管理 数据 在 
索引 中 的 分 布 时 是 非常 有 用 的 。 即 使 使 用 的 Elasticsearch 集 群 只 有 一 个 
oo 也 请 使 用 别名 。 人 今后， 你 会 为 其 赋予 你 的 灵活 性 而 感谢 我 
| o 


9.7.1 什么 是 别名 


你 可 能 会 好 奇 别名 到 改 是 什么 ， 创 建 一 个 别名 会 为 Elasticsearch 市 
来 皇 样 的 额外 有 负载。 别名 的 生命 周期 生存 在 于 集群 状态 之 中 ， 由 主 节 点 
管理 。 这 意味 着 ， 如 果 有 一 个 称 为 idaho 的 别名 ， 指 向 了 名 为 土豆 的 过 
引 ， 那 么 负载 束 是 集群 状态 映射 中 额外 的 键 ， 将 名 称 idaho 映 射 为 具体 
的 索引 名 称 一 一 土豆 。 这 意味 着 ， 和 额外 的 索引 相 比 ， 别 名 更 加 轻 量 
级 ， 维 护 数 千 个 别名 都 不 会 负面 地 影响 集群 。 不 过 ， 我 们 反对 创建 数 十 
万 甚至 是 上 百 万 的 别名 ， 因 为 到 了 这 个 临 形 点 ， 即 使 最 小 的 单个 映射 条 
目 都 会 引起 集群 状态 膨胀 为 一 个 很 大 的 规模 。 由 于 每 次 集群 状态 发 生变 
化 时 ， 整 个 状态 都 需要 发 送 到 每 个 证 点， 所 以 创建 一 个 新 集群 状态 的 操 
作 将 耗费 更 长 的 时 间 。 


1. 为 什么 别名 是 很 有 用 处 的 


我 们 推荐 每 个 人 为 他 们 的 Elasticsearch 索 引 使 用 别名 ， 因 为 在 未 来 
重建 索引 的 时 候 ， 别 名 会 赋予 你 更 多 的 灵活 性 。 假 设 一 开始 创建 的 索引 
只 有 一 个 主 分 片 ， 之 后 你 又 决定 为 索引 扩容 。 如 果 为 原 有 的 索引 使 用 的 
是 别名 ， 现 在 你 可 以 修改 别名 让 其 指 癌 额外 创建 的 新 索引 ， 而 无 须 修改 
被 搜索 的 索引 之 名 称 (假设 一 开始 你 就 为 搜索 使 用 了 别名 ) 。 


另 一 个 有 用 的 特性 是 ， 在 不 同 的 索引 中 创建 窗口 。 比 如 ， 如 果 为 数 
据 创 建 了 每 日 案 引 ， 你 可 能 期 望 一 个 滑动 窗口 涵盖 过 去 一 周 的 数据 ， 别 
名 职称 为 last-7-days。 然 后 ， 每 天 创建 新 的 每 日 索引 时 ， 你 可 以 将 其 加 
入 别名 ， 同 时 删除 第 8 天 前 的 旧 索 引 。 


2. 管理 别名 


使 用 专用 的 别名 API 逆 点 和 一 系列 操作 来 创建 别名 。 每 个 操作 是 一 
个 添加 或 删除 的 映射 ， 外 加 这 个 操作 所 针对 的 每 引 和 别名 。 代 码 清单 9- 
7 中 的 例子 ， 会 更 清晰 地 阐述 这 些 。 


代码 清单 9-7 添加 和 删除 别名 


i -XPOST 'localhost:9200/_aliases' -d' | 


"actions": [ 


"add" : { =--- 本 例 中 ， 这 个 操作 为 某 个 索引 增加 了 一 个 别名 
"index": "get-together", <---#5lget-together 将 增加 别名 gt - 


alias 
"alias": "gt-alias" 


ty 


"remove": { =- - -删除 的 操作 将 删除 索引 的 别名 
"index": "old-get-together", =---- 将 删除 索引 o1d-gettogether 的 别 
名 gt-alias 
"alias": "gt-alias" 


在 这 个 代码 清单 中 ，get-together 索 引 增 加 了 名 为 gtralias 的 别名 ， 而 
虚构 的 old-get-together 索 引 将 删除 别名 gtralias。 增 加 别名 的 行动 将 为 索 
引 创建 别名 ， 而 删除 别名 的 指 辐 将 删除 索引 的 别名 ， 无 须 手动 的 别名 创 


建 和 删除 。 但 是 ， 如 果 索 引 并 不 存在 ， 那 么 别名 操作 将 会 失败 ， 所 以 请 
牢记 。 你 可 以 指定 任意 多 的 添加 和 删除 操作 。 意 识 到 这 些 操作 是 自动 执 
行 的 ， 非 常 重要 ， 这 意味 着 之 前 的 例子 中 ，gt-alias 别 名 不 会 同时 指 癌 
get-together 和 old-get-together 索 引 。 尽 管 我 们 刚刚 调用 的 复合 型 别名 API 
可 能 满足 了 你 的 需求 ， 需 要 注意 可 以 使 用 普通 的 、 适 用 于 Elasticsearch 
的 HITP 方 法 ， 在 别名 API 上 执行 单个 的 操作 。 人 例如， 下面 的 一 系列 调用 
和 之 前 的 复合 操作 调用 效果 一 样 。 


curl -XPUT 'http://localhost:9200/get-together/_alias/gt-alias' 
curl -XDELETE 'http://localhost:9200/old-get-together/_alias/gt- 


alias' 


SPUTRA ATVI APLTIAR , MRA RAPIRA, BB 
0 尤其 是 创建 和 列 出 清单 操作 这 种 随手 可 得 的 端 


9.7.2 ”别名 的 创建 


当 创 建 别 名 的 时 候 ，API 喘 点 有 很 多 选项 可 供 选 择 。 例 如 ， 你 可 以 
具体 的 索引 上 、 多 个 索引 上 或 名 称 符合 某 个 模式 的 索引 上 创建 别 


curl -XPUT 'http://localhost :9200/{index}/_alias/{alias}' <---& 
es _al1、 喜 号 分 隔 的 索引 名 称 列 表 ， 或 者 是 用 于 匹配 名 称 的 模板 =- - -创建 的 别 
oR 


curl -XPUT 'http://localhost :9200/myindex/_alias/myalias' <---# 
myindex 索引 上 创建 别名 myalias 


curl -XPUT 'http://localhost:9200/_all/_alias/myalias' ~--- 在 所 有 
的 索引 上 创建 别名 myalias 

curl -XPUT 'http://localhost :9200/logs-2013, logs- 
2014/_alias/myalias' ~<---7£logs-2013 和 1ogs-2014 两 个 索引 上 他 
myalias 

curl -XPUT 'http://localhost:9200/logs-*/_alias/myalias! 。--- 在 所 
有 名 称 匹 配 了 logs-* 模 式 的 索引 上 创建 别名 myalias 


别名 的 删除 接受 同样 的 路 径 参 数 格式 。 


curl -XDELETE 'localhost:9200/{index}/_alias/{alias}' 


你 可 以 向 某 个 索引 发 送 一 个 _alias 的 GET 请 求 ， 检 索 指 向 该 索引 
的 全 部 别名 。 或 者 也 可 以 去 掉 索 引 名 称 ， 检 索 某 个 别名 所 指向 的 全 部 索 
引 。 代 码 清单 9-8 展 示 了 如 何 检索 某 个 索引 的 全 部 别名 。 


代码 清单 9-8 ”检索 指向 某 个 具体 索引 的 别名 


curl 'localhost:9200/get-together/_alias?pretty' 


"get-together" : { 
"aliases" : { 


"gt-alias" : { } ~---- 别 名 gt-alias #8] [get-together 索引 


pee 2 点 ， 你 有 一 系列 不 同 的 方法 来 获取 索引 的 别 


curl -XGET 'localhost: 9200/{index}/_ a =- - -索引 的 名 称 、 
_al1、 逗 号 分 隔 的 索引 名 称 列 表 、 用 于 匹配 名 称 有 AA 一 -- -你 所 检索 的 别名 
名 称 。 可 以 是 别名 的 名 称 、 妈 号 分 隔 的 列表 、 或 者 是 用 于 匹配 的 模板 


curl -XGET 'http://localhost:9200/myindex/_alias/myalias' <---W 
索引 myindex 检索 别名 myalias 


curl -XGET 'http://localhost:9200/myindex/_alias/ *' 。--- 检 索索 引 
myindex 的 全 部 别名 

curl -XGET 'http://localhost:9200/_alias/myalias' 。--- 检 索 别 名 
myalias 所 指向 的 全 部 索引 

curl -XGET 'http://localhost:9200/_alias/logs-*' “--- 检 索 匹配 模板 
1ogs-* 的 别名 


使 用 别名 过 滤器 来 屏蔽 文档 


别名 还 有 一 些 其 他 的 灵巧 特性 : 它们 可 以 对 正在 执行 的 查询 自动 地 
实施 过 滤 。 举 个 例子 ， 对 于 你 的 get-together 数 据 ， 一 个 别名 仅仅 指向 包 
Gelasticsearch 标签 的 分 名 可 能 是 非常 有 用 的 。 如 
此 一 来 ， 你 可 以 创建 一 个 目 动 进行 过 滤 的 别名 ， 如 代码 清单 9-9 所 示 。 


代码 清单 9-9 ”创建 过 滤 别 名 


$ curl -XPOST 'localhost:9200/_aliases' -d' 


"actions": [ 


"add": { 
"index": "get-together", 
"alias": "es-groups", 


yp 


"filter": { «<---WHes-groups 别名 添加 过 滤器 ， 过 滤 条 件 为 包 
elasticsearch 标签 
"term": {"tags": "elasticsearch"} 


{"acknowledged": true} 


$ curl 'localhost:9200/get-together/group/_count! -d' <。--- 统 计 get- 
together 索引 中 全 部 的 分 组 
{ 


"query": { 
"match_all": {} 


{"count":5,"_shards":{"total":2, "successful":2,"failed":0}} <---#£ 
get-together 索引 中 有 5 个 分 组 


$ curl 'localhost:9200/es-groups/group/_count! -d' <。--- 统 计 别 名 es- 
groups 中 全 部 的 分 组 
{ 


"query": { 
"match_all": {} 


{"count":2,"_shards":{"total":2, "successful":2,"failed":0}} <---l 
名 es-groups 中 有 两 个 分 组 ， 因 为 结果 已 经 被 自动 过 滤 了 


从 这 里 可 以 看 到 ， 别名 es-groups 只 包含 了 2 个 分 组 而 不 是 5 个 ° 这 是 
因为 别名 目 动 运行 了 词 条 过 滤器 ， 只 查找 了 包含 elasticsearch 标 签 的 分 


组 。 这 种 方式 有 很 多 的 应 用 ， 举 个 例子 ， 如 有 果 索 引 敏 感 数 据 ， 你 可 以 创 
~a 确 你 每 个 人 使 用 别名 后 ， 无 法 看 到 他 们 不 应 该 看 到 的 数 


别名 还 能 提供 男 一 个 特性 ， 那 就 是 路 由 。 不 过 ， 在 谈论 使 用 别名 进 
行路 由 之 前 ， 我 们 爷 来 讲述 一 下 通 靖 情况 下 路 由 是 如 何 使 用 的 。 


9.8 ”路 由 


在 第 8 章 中 ， 我 们 讨论 了 文档 是 如 何以 通过 分 片 形式 来 定位 的 。 这 
个 过 程 被 称 为 路 由 (routing) 文档 。 为 了 让 你 更 好 地 回忆 ， 这 里 重 温 
一 下 。 当 Elasticsearch 散 列 文 档 的 ID 时 就 会 发 生 文档 的 路 由 ， 来 决定 文 
档 应 该 索引 到 哪个 分 片 中 ， 这 可 以 由 你 指定 也 可 以 让 Elasticsearch 生 
成 。 索 引 的 时 候 ，Elasticsearch 也 允许 你 手动 地 指定 文档 的 路 由 ， 使 用 
ee 因为 子 文档 必须 要 和 父 文档 在 同一 个 分 


路 由 也 可 以 不 使 用 文档 的 ID， 而 是 定制 的 数值 进行 散 列 。 通 过 指定 
ULR 中 的 routing 查询 参数 ， 系 统 将 使 用 这 个 值 进行 获 列 ， 而 不 是 
ID ° 


curl -XPOST 'localhost:9200/get-together/group/9?routing=denver' - 


": "Denver Knitting" 


在 这 个 例子 中 ，denver 是 决定 文档 属于 哪个 分 片 的 散 列 值 ， 而 不 
是 文档 ID 9 。 路 由 对 于 扩展 策略 很 有 价值 ， 这 也 是 为 什么 在 本 章 中 我 
们 会 详细 阐述 这 些 。 


9.8.1 为 什么 使 用 路 由 


如 果 你 根本 就 不 使 用 路 由 ，Elasticsearch 将 确保 你 的 文档 以 均衡 的 
方式 分 布 在 所 有 不 同 的 分 片 中 ， 那 么 为 什么 还 需要 使 用 路 由 ? 定制 路 由 
人 允许 你 将 分 享 同一 个 路 由 值 的 多 篇 文档 归 集 到 单个 分 片 中 ， 而 一 旦 这 些 
文档 放 入 到 同一 索引 ， 束 可 以 路 由 某 些 查询 ， 让 它们 可 以 在 索引 分 片 的 
子 集中 执行 。 听 上 去 很 困惑 ? Be RHR A MT dt FF A tt 。 


9.8.2 ”路 由 策略 


路 由 策略 需要 在 两 个 方面 下 功夫 : 在 你 索引 文档 的 时 候 挑 选 合适 的 
路 由 值 ， 以 及 在 执行 查询 的 时 候 重用 这 些 值 。 使 用 我 们 get-together 的 例 
子 ， 你 首先 需要 决定 一 个 民 好 的 方式 来 分 隔 文 档 。 在 这 个 例子 中 ， 挑 选 
get-together 分 组 或 活动 举办 的 城市 作为 路 由 值 。 对 于 路 由 值 而 言 这 古 个 
不 错 的 选择 ， 因 为 城市 之 间 差 别 很 大 ， 有 足够 的 值 供 你 挑选 ， 而 且 每 个 
活动 和 分 组 都 已 经 天 联 到 了 城市 ， 所 以 很 容易 在 文档 索引 之 前 抽取 这 项 
信息 。 如 有 宁 你 准备 挑选 只 有 人 少数 取 值 的 项 目 作 为 路 由 值 ， 很 容 碰 到 不 均 
衡 的 索引 分 片 。 如 条 对 于 所 有 的 文档 只 有 3 个 可 能 的 路 由 取 值 ， 这 些 文 
档 最 多 只 会 在 3 个 分 片 中 路 由 。 挑 选 拥有 足够 基数 的 值 是 非常 重要 的 ， 
这 使 得 数据 能 够 在 索引 的 不 同 分 片 中 分 布 。 


现在 你 已 经 挑 光 了 作为 路 由 值 的 项 目 ， 接 下 来 需要 确定 索引 文档 时 
的 路 由 值 ， 如 代码 清单 9-10 所 示 。 


代码 清单 9-10 f 


of 
`y 


定制 路 由 值 来 索引 文档 


x 


"name": "Denver Ruby", 
"description": "The Denver Ruby Meetup" 


} 1 


% curl -XPOST 'localhost:9200/get-together/group/11? 
routing=boulder' -d' =--- 使 用 路 由 值 boulder 来 索引 这 篇 文档 


"name": "Boulder Ruby", 

"description": "Boulderites that use Ruby" 
} 1 
% curl -XPOST 'localhost:9200/get-together/group/12? 
routing=amsterdam' -d' 


"name": "Amsterdam Devs that use Ruby", 
"description": "Mensen die genieten van het gebruik van Ruby" 


} 1 


在 这 个 例子 中 ， 你 对 于 3 篇 不 同 的 文档 使 用 了 3 种 不 同 的 路 由 值 ， 即 
denver ` boulder 和 amsterdam 。 这 意味 着 你 使 用 了 这 些 路 由 的 散 
列 值 来 决定 哪些 分 片 存放 这 些 文档 ， 而 不 是 ID 10 、11 和 12 的 散 列 
值 。 在 索引 阶段 ， 这 对 你 而 言 帮 助 不 大 ; 然而 在 查询 阶段 使 用 这 些 路 由 
的 时 候 ， 其 优点 就 体现 出 来 了 ， 如 代码 清单 9-11 所 示 。 在 查询 阶段 ， 可 
以 使 用 过 号 组 合 多 个 路 由 值 。 


代码 清单 9-11 查询 的 时 候 指定 路 由 值 


% curl -XPOST 'localhost:9200/get-together/group/ 
_search?routing=denver, amsterdam 


' -d' <<--- 使 用 路 由 值 denver 和 amsterdam 来 执行 一 个 查询 


"query": { 
"match": { 
"name": "ruby" 


} 
}' 
{ 
"hits": { 
"hits": [ 
{ 
wrd : "10", 
"index": "get-together", 
"_ score": 1.377483, 
"_source": { 
"description": "The Denver Ruby Meetup", 
"name": "Denver Ruby" 
}, 
"_type" : "group" 
ty 
{ 
" id" : ee ae 
"index": "get-together", 
"_ score": 0.9642381, 
"_source": { 
"description": "Mensen die genieten van het gebruik 
van 
Ruby", 
"name": "Amsterdam Devs that use Ruby" 
}, 
"_type" : "group" 
} 
], 
"max_score": 1.377483, 
"total": 2 
} 
} 


很 有 趣 的 结果 ! 系统 不 是 返回 全 部 3 个 分 组 ， 而 是 只 返回 了 其 中 两 
个 。 那 么 实际 上 发 生 了 什么 ? 从 内 部 来 看 ， 当 Elasticsearch 接 收 到 请 求 
的 时 候 ， 它 将 对 所 提供 的 两 个 路 由 值 ，denver 和 amsterdam ， 进 行 
散 列 ， 然 后 在 存放 它们 的 分 片上 执行 查询 。 这 个 例子 中 ，denver 和 
amsterdam 散 列 到 同一 个 分 片 ， 而 boulder 散 列 到 另 一 个 不 同 的 分 
片 。 


将 这 一 点 延伸 到 成 百 上 千 的 分 组 和 城市 的 情况 ， 在 索引 和 查询 的 时 
候 指 定 每 个 分 组 的 路 由 ， 你 可 以 限制 搜索 请 求 的 查询 范围 。 这 对 于 拥有 


100 个 分 片 的 索引 而 言 是 很 好 的 扩展 性 提升 ， 如 此 一 来 ， 碍 询 被 限制 范 
围 后 束 不 用 在 全 部 100 个 分 片上 执行 ， 它 可 以 运行 得 更 快 ， 对 于 
Elasticsearch 集 群 的 影响 也 更 小 。 


在 前 面 的 例子 中 ，denver 和 amsterdam 恰巧 路 由 到 了 同一 个 分 
片 ， 但 是 它们 也 很 容易 散 列 到 不 同 的 分 片 。 那 么 如 何 确定 请 求 在 哪个 分 
片上 执行 呢 ? 值得 庆幸 的 是 ，Elasticsearch 提 供 了 一 个 API 接 口 ， 告 诉 你 
一 个 搜索 请 求 在 哪些 下 点 和 分 片上 执行 。 


9.8.3 ”使 用 search shards API 来 决定 搜索 在 哪 
里 执行 


让 我 们 使 用 之 前 的 例子 ， 在 有 路 由 值 或 者 没有 路 由 值 的 情况 下 ， 使 
HARRI (search shards) 的 API 接 口 来 查看 请 求 将 在 哪些 分 片上 执 
行 ， 如 代码 清单 9-12 所 示 。 


代码 清单 9-12 在 有 路 由 和 没有 路 由 的 情况 下 ， 使 用 _search_shards API 接 口 


% curl -XGET 'localhost:9200/get-together/_search_shards? 
pretty! <。--- 在 没有 路 由 值 的 情况 下 ， 执 行 _search_shards 的 API 
{ 


"nodes" : { 
"aEFYkvsUQkU4PTZNzTuuxw" : { =---- 将 要 执行 这 个 请 求 的 节点 
"name" : "Captain Atlas", 
"transport_address" : "inet[/192.168.192.16:9300]" 
} 
ty 
"shards" : [ [ { 
"state" : "STARTED", 
"primary" : true, 
"node" : "aEFYkvsUQku4PTZNzTuuxw", 
"relocating_node" : null, 


"Shard" : 0, —---4} shard 9 和 shard 1 都 会 执行 这 个 请 求 并 返回 


ANS 
ot 
Nm 
70 


"index" : "get-together" 
+], [i 
"state" : "STARTED", 
"primary" : true, 
"node" : "aEFYkvsUQku4PTzNzTuuxw", 


"relocating_node" : null, 


"Shard" : 4, 
"index" : "get-together" 


}1]] 
} 


% curl -XGET 'localhost:9200/get-together/ 
_search_shards?pretty&routing=denver' =--- 在 有 路 由 值 
denver 的 情况 下 ,使 用 _search_shards API 


"nodes" : { 
"aEFYKvsUQku4PTZNzZTuuxw" : { 
"name" : "Captain Atlas", 
"transport_address" : "inet[/192.168.192.16:9300]" 
} 
}, 
"shards" : [ [ { 
"state" : "STARTED", 
"primary" : true, 
"node" : "aEFYkvsUQku4PTZNzTuuxw", 
"relocating_node" : null, 
"shard" : 1, =--- 只 有 分 片 shard 1 会 执行 这 个 请 求 
"index" : "get-together" 
了 ] 
} 


可 以 看 到 ， 即 使 在 索引 中 有 两 个 分 片 ， 当 指定 路 由 值 denver 的 时 
候 ， 只 有 分 片 shard1 会 被 搜索 。 对 于 搜索 需要 查找 的 数据 ， 你 有 效 地 切 
除了 一 半 的 数据 量 ! 


当 处 理 拥 有 大 量 分 乒 的 索引 时 ， 路 由 会 很 有 价值 ， 当 然 对 于 
Elasticsearch 的 常规 使 用 它 并 不 是 必需 的 。 将 其 作为 某 些 场景 下 扩展 效 
率 的 方法 ， 并 且 确 保 进 行 了 足够 的 实验 。 


9.8.4 配置 路 由 


这 样 的 操作 也 是 很 有 用 处 的 : 告诉 Elasticsearch 你 想 为 所 有 的 文档 
使 用 定制 路 由 ， 并 拒绝 索引 没有 定制 路 由 值 的 文档 。 你 可 以 通过 类 型 的 
映射 来 配置 。 例 如 ， 可 以 使 用 代码 清单 9-13 中 的 代码 ， 来 创建 名 为 
routed-events 的 索引 ， 并 要 求 每 个 事件 提供 路 由 值 。 


代码 清单 9-13 ”在 类 型 映射 中 将 路 由 定义 为 必 选 项 


% curl -XPOST 'localhost:9200/routed-events! -d' ~--- 创 建 名 为 routed- 
events 的 索引 
{ 


"mappings": { 
"event" : { 
"_routing" : { 
"required" : true =--- 指 定 该 活动 类 型 的 文档 必须 提供 路 由 
I, 
"properties": { 
"name": { 
"type": "string" 


{"acknowledged": true} 


% curl -XPOST 'localhost:9200/routed-events/event/1' -d' 。--- 斌 图 索 
引 一 篇 没有 路 由 值 的 文档 

{"name": "my event"}' 

{"error":"RoutingMissingException[routing is required for [routed- 

events ]|/ 

[event]/[1]]","status":400} =--- 由 于 缺失 了 所 需 的 路 由 值 ，Elasticsearch 

返回 了 一 个 错误 


9.8.5 ”结合 路 由 和 别名 


在 之 前 的 章节 中 ， 你 已 经 了 解 到 别名 是 索引 之 上 的 抽象 ， 非 党 强大 
和 灵活。 假设 别名 指 同 一 个 单独 的 索引 ， 那 么 它们 也 可 以 和 路 由 一 起 使 
用 ， 在 查询 或 索引 的 时 候 上 自动 地 使 用 路 由 值 。 如 果 某 个 别名 指 同 了 多 个 
索引 ， 而 你 试图 将 文档 索引 到 该 别名 ， 那 么 Elasticsearch 就 会 返回 一 个 
背 误 ， 原 因 是 系统 不 知道 文档 应 该 被 索引 到 哪个 具体 的 索引 数据 。 


仍然 使 用 前 面 的 例子 ， 你 可 以 创建 一 个 称 为 denver-events 的 别名 ， 
目 动 地 将 名 称 中 包含 “denver” 关 键 词 的 活动 挑选 出 来 ， 同 时 
将 “denver” 加 入 路 由 ， 这 样 在 搜索 和 索引 的 时 候 ， 系 统 会 限制 查询 的 执 
行 范围 ， 如 代码 清单 9-14 所 示 。 


代码 清单 9-14 ”结合 使 用 路 由 和 别名 


% curl -XPOST 'localhost:9200/_aliases' -d' 


"actions" : [ 
{ 
"add" : { 
"index": "get-together", ~--- 为 get-together 索 引 添加 别名 
"alias": "denver-events", ~--- 别 名 叫做 denver -events 
"filter": { "term": { "name": "denver" } }, ~--- 过 滤 结 果 集 合 ， 


7 4 选择 名 PEL “denver” 的 文档 
"routing": "denver" =--- 自 动 地 使 用 路 由 值 denver 


{"acknowledged": true} 


% curl -XPOST 'localhost:9200/denver-events/_search?pretty' -d' =- 
-- 使 用 denver-events 的 别名 ， 查 询 所 有 的 文档 


"query" : { 
"match_all": {} 
ty 
"fields": ["name" ] 
}' 
{ 
"hits" : { 
"total" : 3, 
"max_score" : 1.0, 
"hits" : [ { 
"_index" : "get-together", 
"_type" : "group", 
" id" : ron A 
"_ score" : 1.0, 
"fields" : { 
"name" [ "Elasticsearch Denver" ] 
} 
}, { 
"_index" : "get-together", 
"_type" i "group", 
"id" g TA" f 
"_ score" : 1.0, 
"fields" : { 
"name" [ "Boulder/Denver big data get-together" ] 
} 
tr { 
"_index" : "get-together", 


"type" : "group", 


"Denver Ruby" ] 


你 也 可 以 使 用 刚刚 创建 的 别名 来 索引 。 当 使 用 denver-events 别 名 来 
建立 索引 的 时 候 ， 这 和 使 用 routing=denver 字符 串 参 数 的 效果 相 


同 。 由 于 别名 是 轻 量 级 的 ， 可 以 根据 需要 创建 很 多 ， 而 与 此 同时 使 用 定 
制 路 由 来 文 持 更 好 的 扩展 。 


9.9 小 结 


现在 ， 你 应 该 对 于 这 些 内 容 有 了 更 加 深入 的 理解 : Elasticsearch 集 
群 是 如 何 组 建 的 ` 是 如 何 由 多 个 万 点 构成 的 ， 每 个 节点 包含 本 多 个 索 
引 ， 而 每 个 索引 又 是 由 多 个 分 片 组 成 。 本 章 中 我 们 还 讨论 了 这 些 : 


。 当 节 点 加 入 Elasticsearch 集 群 的 时 候 会 发 生 什 么 。 

。 主 万 点 是 如 何 选举 的 。 

。 删除 和 售 用 节点 。 

。 使 用 _cat API 接 口 来 了 解 你 的 集群 。 

。 什么 是 过 度 分 片 ， 以 及 如 何 使 用 它 来 规划 集群 的 未 来 成 长 。 
。 如 何 使 用 别名 和 路 由 来 提升 集群 的 灵活 性 和 可 扩展 性 © 


第 10 章 将 从 提升 Elasticsearch 集 群 性 能 的 角度 出 发 ， 继 续 讨 论 从 如 
何 进 行 扩展 。 


第 10 章 ”提升 性 能 


本 章 主要 内 容 


批量 处 理 、 多 条 获取 和 多 条 搜索 API 接 口 
刷新 、 冲 刷 、 合 并 和 存储 

过 滤 鲍 缓存 和 过 滤器 调 优 

调 优 脚本 

查询 预 热 如 

均衡 JVM 堆 大 小 和 操作 系统 绥 存 


Elasticsearch 在 进行 宗 引 、 搜 索 和 抽取 统计 数值 的 聚集 操作 时 ， 通 


利和 被 认为 是 很 快 的 。"* 快 "是 个 模糊 的 概念 ， 我 们 不 免 要 问 “ 到 底 有 多 
Re ”对 于 任何 事情 ，“ 有 多 快 ”取决 于 具体 的 用 例 、 人 硬件 和 配置 。 


在 本 章 ， 我 们 的 目标 是 为 你 展示 配置 Elasticsearch 的 最 佳 实践 ， 这 


样 你 可 以 使 系统 在 应 用 场景 下 表现 民 好 。 在 每 种 情况 下 ， 都 需要 牺牲 
一 些 东 西 来 提升 性 能 ， 所 以 你 需要 进行 抉择 。 


应 用 的 复杂 性 一 一 在 10.1 节 ， 我 们 将 展示 如 何在 单个 HTTP 访 问 中 
合并 多 个 请 求 ， 如 index » update `delete 、get 和 
search。 你 的 应 用 程序 对 于 这 种 合并 需要 保持 谨慎 由 ， 但 是 它 
可 以 大 幅 地 提升 系统 的 整体 性 能 。 想 想 看 ， 由 于 更 少 的 网 络 传 
输 ， 索 引 能 快 20 到 30 倍 。 

牺牲 索引 速度 换取 搜索 速度 还 是 反之 一 一 在 10.2 节 ， 我 们 将 深入 
理解 Elasticsearch 是 如 何 处 理 Lucene 分 段 的 : 刷新 、 冲 刷 、 合 并 策 
略 ， 以 及 存储 设置 是 如 何 运 作 的 ， 又 是 怎样 影响 索引 和 搜索 的 性 
Be 。 调 优 索 引 的 性 能 常 溃 会 对 搜索 产生 负面 的 影响 ， 反 之 永 


内 存 影响 Elasticsearch 速 度 的 一 大 因素 是 缓存 。 这 里 我 们 将 深 
AERA TD ， 理 解 如 何 最 好 地 利用 过 滤 右 。 我 们 还 会 阐 
述 分 片 查询 缓存 ， 以 及 为 Elasticsearch 的 堆 充 分 预 留 空 间 的 同时 ， 
如 何 为 操作 系统 保留 足够 的 空间 让 其 缓存 你 的 索引 。 如 果 在 冷 启 


动 的 缓存 上 运行 搜索 时 慢 得 让 人 无 法 妨 受 ， 那 么 你 可 以 使 用 索引 
预 热 器 在 后 台 运 行 查询 ， 来 为 缓存 热 映 。 

以 上 所 有 一 一 根据 使 用 的 场景 ， 在 索引 阶段 你 分 析 文 本 的 方式 ， 
以 及 所 使 用 的 查询 类 型 可 能 会 越 来 越 复 杂 ， 这 将 拖 慢 其 他 的 操 

作 ， 或 者 消耗 更 多 的 内 存 。 本 章 的 最 后 将 探索 对 数据 和 查询 建 模 
的 时 候 ， 你 通常 采用 的 权衡 之 计 : 是 应 该 在 建立 索引 的 时 候 生成 
更 多 的 词 条 ， 还 是 应 该 在 搜索 的 时 候 查 找 更 多 的 词 条 ? 是 应 该 利 
eee ee 
WAS 


在 本 章 中 我 们 将 讨论 这 些 点 ， 并 且 回 答 上 述 问 题 。 最 后 ， 你 将 学 
会 在 某 个 应 用 场景 下 ， 如 何 使 得 Elasticsearch 运 行 得 更 快 ， 而 且 你 会 深 
入 理解 系统 如 何 运作 得 更 快 。 将 多 个 操作 合并 到 单个 HITP 请 求 通常 是 
提升 性 能 最 简单 的 方法 ， 而 且 它 会 市 来 最 大 的 性 能 提升 。 让 我 们 从 批 
量 (bulk) 、 多 条 获取 (multiget) 和 多 条 搜索 (multisearch) 的 API 
开始 ， 看 看 你 如 何 通 过 这 些 接口 达到 合并 请 求 的 目的 。 


10.1 合并 请 求 


为 了 获得 更 快 的 索引 速度 ， 你 能 做 的 一 项 优化 是 通过 bulk 批 量 
API， 一 次 发 送 多 篇 文档 进行 索引 。 这 个 操作 将 节省 网 络 来 回 的 开 
销 ， 并 产生 更 大 的 索引 吞吐 量 。 一 个 单独 的 批量 可 以 接受 任何 索引 操 
作 。 例 如 ， 你 可 以 创建 或 者 重 写 文 档 。 也 可 以 将 update 或 delete 
操作 加 入 批量 ， 不 限于 索引 操作 。 

如 果 应 用 需要 一 次 发 送 多 条 get 或 search 操作 ， 也 有 对 应 的 批 
量 处 理 : 多 条 获取 和 多 条 搜索 API。 稍 后 我 们 将 探索 这 些 ， 不 过 这 里 
人 因为 在 生产 环境 中 这 是 大 多 数 情况 下 索引 
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10.1.1 批量 索引 、 更 新 和 删除 


在 本 书 中 ， 到 目前 为 止 你 每 次 只 索引 一 篇 文档 。 如 果 随 便 玩 玩 这 
征 没 什么 问题 的 ， 但 写 如 此 操作 意味 着 两 个 方面 的 性 能 损失 。 


。 应 用 程序 必须 等 待 Elasticsearch 的 答复 ， 才 能 继续 运行 下 去 。 
。 对 于 每 篇 被 索引 的 文档 ，Elasticsearch 必 须 处 理 请 求 中 的 所 有 数据 


如 果 需 要 更 快 的 索引 速度 ，Elasticsearch 提 供 了 批量 (bulk) 
API， 你 可 以 用 来 一 次 索引 多 篇 文档 ， 如 图 10-1 所 示 。 


如 图 10-1 所 示 ， 你 可 以 使 用 HTTP 完成 这 个 操作 ， 束 像 索 引 单 篇 文 
档 那 样 ， 而 且 你 将 获得 包含 全 部 索引 请 求 结果 的 答复 。 
1. 使 用 批量 的 索引 


在 下 面 的 代码 清单 10-1 中 ， 你 将 批量 索引 两 篇 文档 。 为 了 实现 这 
个 目标 ， 你 需要 发 送 HTTP POST 请 求 到 _bulk 端点 ， 数 据 也 要 按照 
一 定 的 格式 。 格 式 有 如 下 的 要 求 。 


每 次 索引 一 篇 文档 Bulk 批 量 索引 


索引 索引 索引 :文档 1 
文档 1 文档 2 索引 :文档 2 


文档 2 文档 1: 成 功 
文档 1 成 功 失败 文档 2: 成 功 


Elasticsearch 


| Elasticsearch 


图 10-1 批量 索引 允许 你 在 同一 个 请 求 中 发 送 多 篇 文档 


每 个 索引 请 求 由 两 个 JSON 文 档 贞 组 成 ， 由 换行 符 分隔 开 来 : 一 
个 是 操作 〈 本 例 中 是 索引 index ) 和 元 数据 (如 索引 、 类 型 和 文 
MID) ， 男 一 个 是 文档 的 内 容 。 

。 每 行 只 有 一 个 JSON 文 档 。 这 意味 着 每 行 需要 使 用 换行 符 (m， 或 
者 是 ASCII 码 10) 结尾 ， 包 括 整个 批量 请 求 的 最 后 一 行 。 


代码 清单 10-1 在 单个 批量 请 求 中 索引 两 篇 文档 


REQUESTS_FILE=/tmp/test_bulk =--- 使 用 一 个 文件 来 保存 索引 内 容 中 的 


换行 符 ， 然 后 通过 - -data-binary @file-name 指向 这 个 文件 

echo '{"index":{"_index":"get-together", "_type":"group", 
"id":"10"}} =-- -请 求 的 第 一 行 ， 包 括 操作 (index) 和 元 数据 (索引 ijndex， 类 型 
type 和 文档 ID) 

{"name":"Elasticsearch Bucharest"} <。--- 每 个 JSON 都 需要 以 换行 符 
结尾 (包括 最 后 一 行 ) ， 也 不 能 是 格式 优化 后 的 

{"index": {"_index": "get-together", "_type":"group", 
"_id":"11"}} <---XEWAF 

{"name":"Big Data Bucharest"} 

”> $REQUESTS_FILE 

curl -XPOST localhost:9200/_bulk --data-binary 
@$REQUESTS FILE ~--- 使 用 一 个 文件 来 保存 索引 内 容 中 的 换行 符 ， 然 后 通过 - - data- 


binary @file-name 指向 这 个 文件 


对 于 两 个 索引 请 求 中 的 每 一 个 而 言 ， 在 第 一 行 你 添加 了 操作 类 型 
和 一 些 元 数据 。 主 要 的 字段 名 是 操作 类 型 : 它 表 示 Elasticsearch 要 如 何 
处 理 后 面 紧 跟 的 数据 。 现 在 ， 你 已 经 使 用 了 jindex 来 进行 索引 ， 如 果 
同样 ID 的 文档 已 经 存在 ， 那 么 这 个 操作 将 使 用 新 数据 履 盖 原 有 文档 。 
可 以 将 操作 改 为 创建 create B] ， 确 保 已 有 的 文档 不 会 被 覆盖 。 稍 后 
会 介绍 ， 你 也 可 以 使 用 update 和 delete ， 一 次 处 理 多 篇 文档 。 


这 里 _index 和 _type 表示 每 篇 文档 索引 到 何 处 。 可 以 在 URL 中 
放 入 索引 的 名 称 ， 或 者 索引 加 上 类 型 的 名 称 。 这 使 得 它们 成 为 bulk 中 
每 次 操作 的 默认 索引 和 类 型 。 例 如 : 


curl -XPOST localhost:9200/get-together/_bulk --data-binary 
Q$REQUESTS_FILE 


curl -XPOST localhost:9200/get-together/group/_bulk --data-binary 
Q$REQUESTS_FILE 


这 样 你 就 可 以 不 用 在 请 求 本 身 中 放 入 _index 和 _type 。 不 过 ， 
e i 身 中 指定 了 索引 和 类 型 的 值 ， 那 么 这 些 值 会 覆盖 URL 中 
带 的 值 。 


这 里 _id 字段 意味 着 你 索引 的 文档 ID。 如 果 你 省 略 了 这 个 参数 ， 
Elasticsearch 会 目 动 地 生成 一 个 ID， 在 你 的 文档 没有 唯一 JD 的 上 时候， 这 
一 点 很 有 帮助 。 PIAT: oe A, 1 
很 好 了 ， 因 为 日 志 记 录 通 常 无 顷 有 意义 的 唯一 ID， 也 没有 必要 通 
来 检索 它们 。 


如 果 无 须 提 供 ID， 而 且 你 将 全 部 的 文档 索引 到 同一 个 索引 和 类 型 
那么 代码 清单 10-1 中 的 批量 请 求 束 会 位 单 得 多 ， 如 代码 清单 10-2 
ZN œ 


代码 清单 10-2 ”使 用 自动 ID， 在 同一 个 索引 和 类 型 中 索引 两 篇 文档 


REQUESTS_FILE=/tmp/test_ bulk 
echo '{"index":{}} 指定 操作 ， 因 为 索引 和 类 型 已 经 由 URL 提供 ， 而 ID 
动 生成 


AHA 
Z 


{"name":"Elasticsearch Bucharest"} 


{"index":{}} 


{"name":"Big Data Bucharest"} 

”> $REQUESTS_FILE 

URL='localhost:9200/get-together/group' <---7EURL 中 指定 索引 和 类 
curl -XPOST $URL/_bulk?pretty --data-binary @$REQUESTS_FILE 


这 个 批量 操作 的 结果 应 该 是 一 个 JSON 对 象 ， 包含 了 索引 花费 的 时 
则 ， 以 及 针对 每 个 操作 的 回复 。 还 有 一 个 名 为 errors 的 错误 旗 标 ， 
表示 是 否 有 任何 一 个 操作 失败 了 。 整 体 的 回复 看 上 去 是 这 样 的 : 


"took" : 2, 
"errors" : false, 
"items" : [ { 
"create" : { 
"index" : "get-together", 
" type" z "group", 
"_id" : "AUyDUQEDOpziDTnH-426", 
"_ version" : 1, 
"status" : 201 
} 
}, { 
"create" : { 
"index" : "get-together", 


"type" g "group", 


"id" : "AUyDUQEDOpziDTnH-426", 
" version" : 1, 
"Status" : 201 


请 注意 由 于 你 使 用 了 自动 的 ID 生成 ， 操 作 index 会 被 转变 为 
create 。 如 果 一 篇 文档 由 于 某 种 原因 无 法 索引 ， 那 么 并 不 意味 着 整 
个 批量 操作 失败 了 ， 因 为 同一 个 批量 中 的 各 项 是 彼此 独立 的 。 这 也 是 
为 什么 每 个 操作 都 给 你 了 一 个 请 求 回 复 ， 而 不 是 整个 批量 给 你 一 个 单 
独 的 回复 。 在 你 的 应 用 中 ， 你 可 以 使 用 回复 的 JSON 来 确定 哪些 操作 成 
功 了 而 哪些 操作 失败 了 。 


涉及 性 能 的 时 候 ， 批 量 的 大 小 很 关键 。 如 果 你 的 批量 太 大， 它们 会 占用 过 多 的 内 存 。 
如 果 它们 太 小 | 网络 开销 又 会 很 大 。 最 佳 的 平衡 点 ， 取 决 于 文档 的 大 小 =í} 

大 ， 每 个 批量 中 就 少 放 几 篇 ， 如果 文档 很 小 ， 就 多 放 几 篇 一 一 以 及 集群 的 能 力 。 一 个 拥有 
强 勤 机 器 的 大 规模 集 Fo 以 更 快 地 处 理 更 大 的 批量 请 求 ， 并 且 仍然 保持 良好 的 搜索 服务 性 
能 。 最 后 ， 你 需要 自行 测试 ， 发 现 适合 你 用 例 的 最 佳 点 。 你 可 以 从 像 每 个 批量 1,000 篇 小 
文档 这 样 的 值 开 始 (如 日 志文 件 ) ， 然 后 逐步 增加 数量 直到 尔 无 法 获得 明显 的 性 能 提升 
同时 ， 记 得 监控 你 的 集群 ， 我 们 会 在 第 11 章 讨论 监控 相关 的 内 容 


2. 使 用 批量 的 更 新 或 删除 


在 单个 批量 中 ， 你 可 以 包含 任意 数量 的 Index 和 create 操作 ， 
同样 也 可 以 包含 任意 数量 的 update 和 delete 操作 。 


Update 操作 看 上 去 和 刚刚 讨论 的 jndex 、create 操作 差 不 
多 ， 除 了 你 必须 指定 ID。 而 且 ， 按 照 更 新 的 方式 ， 文 档 的 内 容 需 要 包 
E — 文档 或 者 script 脚本 ， 就 像 第 3 章 中 你 对 于 单个 更 新 操作 所 做 
的 那样 。 


Delete 操作 和 其 他 的 有 所 不 同 ， 这 征 因为 删除 时 不 用 提供 文档 
内 容 。 你 只 需要 元 数据 这 一 行 。 和 更 新 操作 一 样 ， 必 须 包 含 文档 的 
ID。 


在 代码 清单 10-3 中 ， 有 一 个 包含 4 种 操作 的 批量 处 理 : index ` 
create ` update {idelete 。 


代码 清单 10-3 ”Index、create、update 和 delete 的 批量 


echo '{"index": {}} 
{"title":"Elasticsearch Bucharest"} 
{"create": {}} 

{"title":"Big Data in Romania"} 
{"update":{"_id": "11"}} 


{"doc":{"created_on" : "2014-05-06"} } =---- 更 新 操作 : 指定 ID 和 部 分 文 
档 
{"delete":{"_id": "10"}} =--- -删除 操作 : 无 需 文档 ， 只 要 提供 ID 


' > $REQUESTS_FILE 

URL='localhost:9200/get-together/group' 

curl -XPOST $URL/_bulk?pretty --data-binary @$REQUESTS_FILE 
# expected reply 


"took" : 37, 
"errors" : false, 
"items" : [ { 
"create" : { 
"index" : "get-together", 
"type" : "group", 
"id" : "rVPtooieSxqfM6_JX-UCkg", 
" version" : 1, 
"status" : 201 
} 
}, { 
"create" : { 
"index" : "get-together", 
"type" : "group", 
"id" : "8w3GoNg5T_WEIL5jSTz_Ug", 
"_ version" : 1, 
"status" : 201 
} 
} { 
"update" : { 
"index" : "get-together", 
"type" i "group", 
" jid" G a ka RAA 
" version" : 2, 
"status" : 200 <--- 和 普通 的 更 新 及 删除 相同 ， 更 新 和 删除 操作 增加 了 文档 
的 版 本 号 
J 
+, { 


了 
" 


delete" : { 


_id" 1 

"_ version" : 2, 
"status" : 200, 
"found" : true 


如 果 批 量 API 接 口 可 以 用 于 合并 多 个 索引 、 更 新 和 删除 操作 ， 那 


么 你 也 可 以 通过 多 条 搜索 和 多 条 获取 API 接 口 ， 分 别 为 搜索 和 获取 请 
求 做 同样 的 事情 ， 下 面 我 们 来 看 看 。 


10.1.2 多 条 搜索 和 多 条 获取 API 接 口 


使 用 多 条 搜索 (multisearch) 及 多 条 获取 (multiget) 所 带 来 的 好 
处 和 批量 相同 : 当 你 不 得 不 进行 多 个 search 或 get 请 求 的 时 候 ， 将 
它们 合并 在 一 起 将 会 让 省 花费 在 网 络 延迟 上 的 时 间 。 


1. 多 条 搜索 


一 次 发 送 多 条 搜索 请 求 的 一 个 使 用 场景 是 你 正在 搜索 不 同类 型 的 
文档 。 例 如 ， 我 们 假设 在 get-together 站 点 上 有 一 个 搜索 框 。 你 并 不 知 
道 搜索 十 针对 分 组 还 是 活动 ， 所 以 准备 同时 搜索 两 者 ， 并 在 用 户 界 面 
上 提供 不 同 的 标签 页 : 一 个 用 于 显示 分 组 的 搜索 结 有 末 ， 而 另 一 个 用 于 
显示 活动 的 搜索 结果 。 这 两 个 搜索 应 该 有 着 完全 不 一 样 的 评分 机 制 ， 
所 以 需要 在 不 同 的 请 求 中 执行 ， 或 者 将 这 些 请 求 合 并 在 一 个 多 条 搜索 


请 求 中 。 
这 个 多 条 搜索 API 接 口 和 批量 API 接 口 有 很 多 相似 之 处 。 


访问 了 _msearch 端点 ， 在 URL 中 你 可 以 指定 、 也 可 以 不 指定 索 
引 和 类 型 。 

每 个 请 求 有 个 两 行 的 JSON 字 符 串 : 第 一 行 可 能 包含 索引 、 类 型 、 
路 由 值 或 搜索 类 型 这 样 的 参数 一 一 在 单个 请 求 的 URI 中 你 通常 也 
° 第 二 行 包含 了 查询 的 主体 ， 通 常 是 单个 请 求 的 有 效 
fil fay ° 


代码 清单 10-4 展 示 了 一 个 多 条 搜索 请 求 的 例 和 于 ， 它 会 搜索 
Elasticsearch 相 关 的 活动 和 分 组 。 


代码 清单 10-4 一 个 多 条 搜索 请 求 ， 它 将 查找 关于 Elasticsearch 的 活动 和 分 组 


echo '{"index" : "get-together", "type": "group"} =--- 每 个 搜 
索 的 头 部 包含 了 可 作为 单独 搜索 的 数据 
{"query" : {"match" : {"name": "elasticsearch"}}} <--- 主 体 包 
含 了 查询 ， 和 单个 搜索 的 情况 一 样 
{"index" : "get-together", "type": "event"} <--- 对 于 每 个 搜 
索 ， 你 有 一 个 头 部 行 和 主体 行 
{"query" : {"match" : {"title": "elasticsearch"}}} 
' > request 
curl localhost:9200/_msearch?pretty --data-binary @request 
~- - -和 批量 请 求 一 样 ， 保 留 换 行 符 至 关 重 要 
# reply 
{ 
"responses" : [ { -~---- 回 复 是 单个 搜索 结果 的 数组 
"took" : 4, =--- 第 一 个 查询 是 关于 分 组 的 ， 这 是 该 请 求 的 


"hits" : [ { 
"_index" : "get-together", 
"_type" : "group", 
" id" : Mam 
"_ score" : 1.8106999, 
"_source":{ 
"name": "Elasticsearch Denver", 


"took" : 7, <--- 所 有 的 回复 和 单个 查询 


"hits" : [ { 
"index" : "get-together", 
"type" : "event", 
"id" R "103", 
"_score" : 0.9581454, 
"_source":{ 
"host": "Lee", 
"title": "Introduction to Elasticsearch", 


al 


2. 多 条 获取 


某 些 Elasticsearch 系 统 之 外 的 处 理 要 求 你 在 不 进行 任何 搜索 的 前 提 


下 获取 一 组 文档 ， 这 个 时 候 多 条 获取 束 很 有 意义 了 。 例 如 ， 你 正在 存 
储 系统 的 度量 指标 ， 而 时 间 崔 作为 文档 ID， 你 可 以 在 不 使 用 任何 过 减 
磺 的 情况 下 ， 检 索 特 定时 间 的 特定 度量 值 。 为 了 实现 这 一 点 ， 要 调用 
_mget 端点 并 发 送 包含 索引 、 类 型 和 行程 文档 ID 的 docs 数组 ， 如 代 


码 清 单 10-5 所 示 。 
FRESE 


和 10-5”_mget 端 点 和 


包含 索引 、 类 型 和 文档 ID 参数 的 docs 数 组 


curl localhost:9200/_mget?pretty -d '{ 


个 GET 请 


"docs" : [ =--- 文 档 数组 确定 了 你 想 检 索 的 全 部 文档 
{ 
"index" : "get-together", 
"type" i "group", 
mid" : Wet 
ty 
{ 
"index" : "get-together", 
W type" G "group", 
W id" : wot 
} 
] 
}' 
# reply 
{ 
"docs": [ { =---- 回 复 也 包含 了 一 个 文档 数组 
"index" : "get-together", =---- 数 组 的 每 个 元 素 是 你 可 以 通过 和 
求 所 获得 的 文档 
W type" : "group", 
"ad? : oe Dee 
""version" : 1, 
"Found" : true, 
"source": { 
"name": "Denver Clojure", 
Lect el 
} { 
"_index" : "get-together", 
W type" i "group", 
" id" s 2", 
" version" : 1, 
"found" : true, 
"_source":{ 
"name": "Elasticsearch Denver", 
ESRA 


对 于 多 数 API 接 口 而 言 ， 索 引 和 类 型 参数 是 可 选 的 ， 因 为 你 还 可 
以 将 它们 放 在 请 求 的 URL 中 。 当 所 有 ID ( 即 文 档 ) 的 索引 和 类 型 都 是 
相同 的 时 候 ， 建 议 你 将 他 们 放 在 URL 中 ， 然 后 将 ID 放 入 ids 数组 ， 使 
得 代码 清单 10-5 中 的 请 求 更 简短 。 


% curl localhost:9200/get-together/group/_mget?pretty -d '{ 
"ids" : [ mae mon ] 


使 用 多 条 获取 API 将 多 个 操作 合并 到 同一 个 的 请 求 中 ， 这 样 做 可 
能 会 使 得 你 的 应 用 程序 变 得 稍微 复 光 一点， 但 是 它 会 使 得 这 些 查 询 运 
行 得 更 快 ， 而 且 没 有 明显 的 成 本 。 对 于 多 条 搜索 和 bulk 批 量 API 同 样 如 
此 ， 而 且 为 了 充分 地 控 据 这 些 API 的 次 力 ， 可 以 使 用 不 同 的 请 求 大 小 
进行 实验 ， 然 后 看 看 对 于 你 的 文档 和 硬件 来 说 何 种 规模 是 最 佳 的 。 


下 面 ， 我 们 来 看 看 在 内 部 ，Elasticsearch 是 如 何 使 用 Lucene 分 段 的 
形式 来 处 理 批量 请 求 中 的 文档 ， 以 及 如 何 调 优 这 些 过 程 来 加 速 索引 和 


ZAIN 


[1] ”因为 这 会 增加 应 用 程序 的 复 洒 度 。 一 一 译 者 注 


[2] ”这 里 的 JSON 文 档 和 索引 中 的 文档 是 不 同 的 概念 ， 这 里 JSON 文 档 
可 以 认为 是 JSON 对 象 。 译 者 注 


[3] ”如 果 同 样 ID 的 文档 已 经 存在 ，create 不 会 使 用 新 数据 覆盖 原 有 文 
档 。 一 一 译 者 注 


10.2 ”优化 Lucene 分 段 的 处 理 


一 旦 Elasticsearch 接 收 到 了 应 用 所 发 送 的 文档 ， 它 会 将 其 索引 到 内 
存 中 称 为 分 段 (segments) 的 倒 排 索引 。 这 些 分 段 会 不 时 地 写 入 磁 
° 第 3 章 曾 经 提 到 过 ， 这 些 分 段 是 不 能 改变 的 ， 只 能 被 删除 ， 这 是 


为 了 操作 系统 更 好 地 缓存 它们 。 男 外 ， 较 大 的 分 段 会 是 期 从 较 小 的 分 
段 创 建 而 来 ， 用 于 优化 倒 排 索引 ， 使 搜索 更 快 。 


有 很 多 调 世 的 方式 来 影响 每 一 个 环节 中 Elasticsearch 对 于 这 些 分 段 
的 处 理 ， 根 据 你 的 使 用 场景 来 配置 这 些 ， 和 常常 会 市 来 意义 重大 的 性 能 
提升 。 本 章 将 讨论 这 些 调 优 的 方式 ， 可 以 将 它们 分 为 以 下 3 类 。 


。 刷新 (refresh) 和 和 冲刷 (flush) 的 频率 刷新 会 让 Elasticsearch 
重 狐 打开 索引 ， 主 新 建 的 文档 可 用 于 搜索 。 冲 刷 是 将 索引 的 数据 
从 内 存 写 入 磁盘。 从 性 能 的 角度 来 看 ， 刷 新 和 冲刷 操作 都 是 非常 
消耗 资源 的 ， 所 以 为 你 的 应 用 正确 地 配置 它们 是 十 分 重要 的 。 
合并 的 策略 Lucene (Elasticsearch 也 是 如 此 ) 将 数据 存储 在 不 
可 变 的 一 组 文件 中 ， 也 就 是 分 段 中 。 随 着 索引 的 数据 越 来 越 多 ， 
系统 会 创建 更 多 的 分 段 。 由 于 在 过 多 的 分 段 中 搜索 是 很 慢 的 ， 
此 在 后 台 小 分 段 会 被 合并 为 较 大 的 分 段 ， 保 持 分 段 的 数量 可 控 。 
不 过 ， 合 并 也 是 十 分 消耗 性 能 的 ， 对 于 IO 子 系统 尤其 如 此 。 你 可 
以 调 记 合并 的 策略 ， 来 确定 合并 多 久 发 生 一 次 ， 而 且 分 段 应 该 合 
并 到 多 大 。 
存储 和 存储 限 流 Elasticsearch 调 蔬 每 秒 写 入 的 字 和 数 ， 来 限制 
合并 对 于 IO 系统 的 影响 。 根 据 硬 件 和 应 用 ， 你 可 以 调整 这 个 限 
制 。 还 有 一 些 其 他 的 选项 告诉 Elasticsearch 如 何 使 用 存储 。 例 如 ， 
可 以 选择 只 在 内 存 中 存放 索引 。 


这 3 个 分 类 中 ， 通 利 有 一 类 会 给 你 市 来 最 大 的 性 能 收益 ， 我 们 头 从 
它 开始 : 选择 刷新 和 冲刷 的 频率 。 


10.2.1 刷新 和 冲刷 的 立 值 


还 记得 第 二 章 的 介绍 吗 ” Elasticsearch 通 第 被 称 为 近 实 时 (或 准 实 
时 ) 系统 。 这 是 因为 搜索 不 是 经 常 运行 于 最 新 的 索引 数据 之 上 (这 个 
数据 是 实时 的 ) ， 但 是 很 接近 了 。 


打上 近 实 时 的 标签 是 因为 通常 Elasticsearch 保 持 了 革 个 时 间 点 索引 
打开 的 快照 ， 所 以 多 个 搜索 会 命中 同一 个 文件 并 重用 相同 的 缓存 。 在 
源 建 的 文档 对 于 那些 搜索 是 不 可 见 的 ， 直 到 你 再 次 刷 
鸡 o 
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本 吴 也 需要 一 些 处 理 能 力 ， 拖 慢 了 索引 的 建立 。 


1. 何 时 刷新 
默认 的 行为 是 每 秒 目 动 地 刷新 每 份 索 3|。 你 可 以 修改 其 设置 ， 改 


变 每 份 索引 的 刷新 闻 隔 ， 这 个 是 可 以 在 运行 时 完成 的 。 例 如 ， 下 面 的 
命令 将 自动 刷新 的 间隔 设置 为 了 5 秒 。 


% curl -XPUT localhost:9200/get-together/_settings -d '{ 
"index.refresh_interval": "5s" 


为 了 确定 你 的 修改 生效 了 ， 可 以 运行 如 下 命令 来 获得 全 部 的 索引 设置 : curl 
localhost: 9200/get-together/_settings?pretty ° 


当 增 加 refresh_interval HAIT, (RIKER KARS AIE 
量 ， 因 为 花费 在 刷新 上 的 系统 资源 更 少 了 。 


或 者 你 也 可 以 将 refresh_interval 设置 为 -1 ， 彻 底 关 闭 自动 


刷新 并 依赖 手动 刷新 。 这 对 于 索引 只 是 定期 批量 变化 的 应 用 非常 有 
效 ， 如 产品 和 库存 每 晚 更 新 的 零售 供应 链 。 索 引 的 吞吐 量 是 非常 重要 
的 ， 因 为 你 总 想 快 速 地 进行 更 新 ， 但 是 数据 刷新 不 一 定 是 最 重要 的 ， 
因为 无 论 如 何 都 不 可 能 获得 完全 实时 的 更 新 。 所 以 每 晚 你 可 以 关闭 自 
动 刷 新 ， 进 行 批量 的 bulk 索 引 和 更 新 ， 完 成 后 再 进行 手动 刷新 。 


为 了 实现 手动 刷新 ， 访 问 竺 刷新 索引 的 _refresh 端点 。 


% curl localhost:9200/get-together/_refresh 


2. 何 时 冲刷 


如 果 你 习惯 了 老 版 本 的 Lucene 或 者 Solr， 可 能 会 倾向 于 认为 ， 当 
刷新 发 生 的 时 候 ， 所 有 的 数据 (内 存 中 的 ) 都 已 经 完成 了 索引 ， 因 为 
最 近 一 次 的 刷新 也 会 将 其 写 入 人 磁盘 。 


对 于 Elasticsearch (还 有 4.0 及 之 后 版 本 的 Solr) 而 言 ， 刷 新 的 过 程 
和 内 存 分 段 写 入 磁盘 的 过 程 是 相互 独立 的 。 实 际 上 ， 数 据 首 移 索 引 到 
内 存 中 ， 经 过 一 次 刷新 后 ，Elasticsearch 也 会 开心 地 A 搜索 相应 的 内 
存 分 段 。 将 内 存 中 的 分 段 提交 到 位 盘 上 的 Lucene 索 引 的 过 程 ， 被 称 为 
冲刷 (flush) ， 无 论 分 段 是 否 能 被 搜 到 ， 冲 刷 都 会 发 生 。 


为 了 确保 某 个 节点 宕 机 或 分 片 移动 位 置 的 时 候 ， 内 存 数据 不 会 丢 
失 ，FElasticsearch 将 使 用 事物 日 志 来 跟踪 尚未 冲刷 的 索引 操作 。 除 了 将 
内 存 分 段 提 交 到 人 磁盘， 冲刷 还 会 清理 事物 日 志 ， 如 图 10-2 所 示 。 


索引 缓冲 区 
持久 化 存储 


索引 文档 1 
更 新 文档 2 


事务 日 志 


图 10-2 冲刷 操作 将 分 段 从 内 存 中 移动 到 磁盘 上 ， 并 清除 事务 日 志 
如 图 10-3 所 示 ， 满 足下 列 条 件 之 一 束 会 触发 冲刷 操作 。 
。 内 存 缓冲 区 已 满 。 


。 自 上 次 冲刷 后 超过 了 一 定 的 时 间 。 
。 事 物 日 志 达 到 了 一 定 的 阔 值 。 


2. 时 间 到 了 吗 ? 


f= 


F----------------” 


索引 缓冲 区 


索引 文档 ] 
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图 10-3 ”内 存 缓冲 区 已 满 、 事 物 日 志 已 满 、 时 间 间 隔 已 到 ， 都 会 触发 冲刷 操作 
为 了 控制 冲刷 发 生 的 频率 ， 你 需要 调整 控制 这 3 个 条 件 的 设置 。 
内 存 绥 冲 区 的 大 小 在 elasticsearch.yml 配 置 文件 中 定义 ， 通 过 


indices.memory.index_ buffer_size 来 设置 。 这 个 设置 控制 
了 整个 节点 的 缓冲 区 ， 其 值 可 以 是 全 部 JVM 堆 内 存 的 百分比 ， 如 
10%， 也 可 以 是 100 MB 这 样 的 固定 值 。 


事物 日 志 的 设置 是 具体 到 索引 上 的 ， 而 且 同 时 控制 了 触动 冲刷 的 
规模 (通过 index.translog， flushthreshold_size ) 和 冲 
刷 之 间 的 时 间 间 隔 (通过 index .translog.flush 
threshold_period) 。 和 多 数 索 引 设置 一 样 ， 你 可 以 在 运行 时 修 
改 它 们 。 


% curl -XPUT localhost:9200/get-together/_settings -d '{ 
"index.translog": { 
"flush_threshold_size": "500mb", 


"flush_threshold_period": "10m" 


Soil ACE AE Re, ES TERETE BUSES SOT ER oo HVT 
个 查询 的 时 候 ，Elasticsearch (通过 Lucene) 查看 所 有 的 分 段 ， 然 后 将 
结果 合并 到 一 个 整体 的 分 片 中 。 如 你 在 第 2 章 所 见 ， 搜 索 的 时 候 每 个 分 
片上 的 结果 将 被 聚集 为 一 个 完整 的 结果 集合 ， 然 后 返回 给 应 用 程序 。 


天 于 分 段 ， 这 里 需要 记 住 的 关键 点 是 你 需要 搜索 的 分 段 越 多 ， 搜 
索 的 速度 就 越 慢 。 为 了 防止 分 段 的 数量 失去 控制 ，Elasticsearch (也 是 
通过 Lucene) 在 后 台 将 多 组 较 小 的 分 段 合 并 为 较 大 的 分 段 。 


10.2.2 ”合并 以 及 合并 策略 


在 第 3 章 中 我 们 首次 介绍 分 段 ， 它 征 不 变 的 一 组 文件 ， 
Elasticsearch 用 其 存储 索引 的 数据 。 由 于 分 段 是 不 变 的 ， 它 们 很 容易 被 
缓存 ， 使 得 搜索 更 快 。 此 外 ， 修 改 数据 集 时 ， 如 天、 加 一 篇 文档 ， 无 须 
重建 现 有 分 段 中 的 数据 索引 。 这 使 得 新 文档 的 索引 也 是 很 快 的 ， 但 也 
不 都 是 好 消 思 。 更 新 文档 不 能 修改 实际 的 文档 ， 只 十 索引 一 篇 新 的 文 
档 。 如 此 处 理 还 需要 删除 原 有 的 文档 。 接 下 来 ， 删 除 也 不 能 从 分 段 中 
移 除 文档 〈 这 需要 重建 倒 排 索引 ) ， 只 是 在 单独 的 .del 文 件 中 将 其 标记 
为 “已 被 删除 ”。 文档 只 会 在 分 段 合 并 的 时 候 真正 地 被 移 除 。 


“这 告诉 我 们 合并 分 段 的 两 个 目的 : 第 一 个 是 将 分 段 的 总 数量 保持 
(这 用 来 保障 查询 的 性 能 ) 。 第 二 个 是 真正 地 删除 文 


按照 已 定义 的 合并 策略 ， 分 段 是 在 后 台 进 行 的 。 上 默认 的 合并 筑 略 
征 分 层 配 置 ， 如 图 10-4 所 示 ， 该 策略 将 分 段 划 分 为 多 个 层次 ， 如 采 你 
的 分 段 多 于 茶 一 层 中 所 设置 的 最 大 分 段 数 ， 该 层 的 合并 束 会 被 触发 。 


还 有 其 他 的 合并 筑 略 ， 但 古 在 这 章 中 我 们 只 会 聚焦 于 默认 的 分 层 
合并 策略 ， 原 因 是 多 数 情况 下 这 个 策略 能 起 到 很 好 的 效果 。 


1. 调 优 合并 策略 的 选项 


合并 的 最 终 目 的 是 提升 搜索 的 性 能 而 均衡 WO 和 CPU 计 算 能 力 。 合 
并 发 生 在 索引 、 更 新 或 者 删除 文档 的 时 候 ， 所 以 合并 的 越 多 、 这 些 操 
作 的 成 本 束 越 晶 贯 。 反 之 ， 如 果 想 快速 地 索引 ， 你 需要 较 少 的 合并 ， 
而 且 牺 牲 一 些 碍 询 的 性 能 ， 如 图 10-4 所 示 。 


T 


e index.merge.policy.max_merge_at_once 


1. 冲刷 操作 在 第 一 层 中 添加 分 段 ， 直 到 存在 
过 多 分 段 。 让 我 们 假设 4 个 就 太 多 了 索引 


2. 小 的 分 段 合 并 到 较 大 的 分 段 。 而 冲刷 还 在 
持续 加 入 新 的 小 分 段 
E 索引 


3. 最 终 ， 较 大 的 层 也 会 拥有 4 个 分 段 


4. 这 4 个 较 大 的 分 段 继续 合并 为 一 个 更 大 的 
分 段 ， 这 个 过 程 不 断 持续 …… 


最 大 尺寸 
5. ……- 直 到 分 层 达 到 了 设置 的 限制 值 。 之 后 ， 
只 有 较 小 的 分 段 被 合并 ， 最 大 分 段 保 持 不 变 最 大 尺寸 最 大 尺寸 

O ga 


图 10-4” 当 分 层 的 合并 策略 发 现 某 层 中 存在 过 多 的 分 段 时 ， 它 将 进行 一 次 合并 
为 了 设置 合并 的 多 少 ， 你 有 几 个 设置 选项 。 这 里 列 出 最 重要 的 几 
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e index.merge.policy.segments_per_tier 一 一 这 个 值 越 


大 ， 每 层 可 以 拥有 的 分 段 越 多 。 这 吏 意 味 痢 更 少 的 合并 以 及 更 好 
的 索引 性 能 。 如 果 索 引 次 数 不 多 ， 而 你 布 望 获得 更 好 的 搜索 性 
能 ， 将 这 个 值 设置 的 低 一 些 。 

这 个 设置 


限制 了 每 次 可 以 合并 多 少 个 分 段 。 通 常 ， 你 可 以 将 其 等 同 于 
segments_per_tier value 的 值 。 可 以 降低 


max_merge_at_once 的 值 来 强制 性 地 减少 合并 ， 但 是 最 好 是 通 
过 增加 segments_per_tier 来 实现 这 个 目的 。 请 确保 
max_merge_at_once 的 值 不 会 比 segments_per_tier 的 值 
高 ， 因 为 这 会 引起 过 多 的 合并 。 
index.merge.policy.max_merged_segment 一 一 这 个 设置 
定义 了 最 大 的 分 段 规 模 。 不 会 再 使 用 其 他 的 分 段 合 并 为 比 这 个 更 
大 的 分 段 了 。 如 有 果 你 想 获 得 较 少 的 合并 次 数 ， 以 及 更 快 的 索引 速 
度 ， 最 好 降低 这 个 值 ， 因 为 较 大 的 分 段 更 难以 合并 。 


e index.merge.scheduler .max_thread_count 在 后 
台 ， 合 并 发 生 于 多 个 彼此 分 隔 的 线程 中 ， 而 这 个 设置 控制 了 可 用 
于 合并 的 最 大 线程 数量 。 这 是 每 次 可 以 进行 的 合并 的 硬性 限制 。 
在 一 台 多 CPU 和 高 速 O 的 机 器 上 ， 你 可 以 增加 这 个 设置 来 实行 激 
进 的 合并 策略 ， 在 低速 CPU 和 IO 的 机 器 上 需要 降低 这 个 值 。 


所 有 这 些 选 项 是 具体 到 索引 上 的 ， 而 且 和 事物 日 志 及 刷新 设置 一 
样 ， 你 可 以 在 运行 时 修改 这 些 设 置 。 例 如 ， 下 面 的 代码 片段 将 
segments_per_tier 减少 到 5， 会 导致 更 多 的 合并 (还 有 
max_merge_at_once ) ， 将 最 大 的 分 段 规 模 降 低 到 1 GB， 并 将 线 
程 数量 降低 到 1， 让 磁盘 更 好 地 运转 。 


% curl -XPUT localhost:9200/get-together/_settings -d '{ 
"index.merge": { 
"policy": { 
"segments _per_tier": 5, 
"max_merge_at_once": 5, 


"max_merged_segment": "1gb" 


} 


1 
"scheduler .max_thread_ count": 1 


2. 优化 索引 


有 了 刷新 和 冲刷 ， 你 可 以 手动 触发 一 次 合并 。 一 次 强制 性 的 合并 
也 被 称 为 优化 (optimize) ， 之 所 以 起 这 样 的 名 字 是 因为 通常 是 在 一 
个 今后 不 会 更 改 的 索引 上 运行 这 个 操作 ， 将 其 优化 到 一 定 〈 较 低 ) BL 
量 的 分 段 ， 使 得 更 快 的 搜索 成 为 可 能 。 


对 于 激进 的 合并 而 言 ， 优 化 是 非常 消耗 WO 的 ， 而 且 使 得 许多 缓存 
失效 。 如 果 你 持续 地 索引 、 更 新 和 删除 索引 文件 中 的 文档 ， 新 的 分 段 
忠 会 被 创建 ， 而 优化 操作 的 好 处 就 无 法 体现 出 来 。 因 此 ， 在 一 个 不 断 
ea 如 采 布 望 分 段 的 数量 较 少 ， 那 么 你 应 该 调 优 合并 的 筑 
He o 


在 静态 的 索引 上 优化 是 很 有 意义 的 。 例 如 ， 如 采 索 引 了 社会 媒体 
的 数据 ， 而 且 每 天 新建 一 个 索引 ， 那 么 你 知道 目 己 永 远 不 会 修改 昨天 
的 索引 ， 直 到 有 一 天 永远 删除 它 。 这 种 情况 下 ， 将 分 段 优化 为 较 少 的 
数量 可 能 是 很 有 帮助 的 ， 如 图 10-5 所 示 。 图 10-5 中 ， 系 统 会 减少 分 段 
的 尽数 量 ， 一 旦 缓存 再 次 说 预 热 加 载 ， 束 会 加 速 查 询 。 


静态 的 索引 : 


大 小 更 站 活跃 ) 的 索引 : 不 断 更 新 
(一 旦 缓 右 0 载 ) 合并 按照 预先 定义 的 策略 进行 
f N | 
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图 10-5 ”对 于 没有 更 新 的 索引 而 言 ， 优 化 操作 是 很 和 意义 的 


为 了 优化 ， 你 需要 访问 竺 优化 索引 的 _optimize 端点 。 选 项 
max_num_segments 表示 每 个 分 片 最 终 拥有 多 少 分 段 。 


% curl localhost:9200/get-together/_optimize?max_num_segments=1 


在 一 个 大 型 索引 上 进行 的 优化 操作 可 能 需要 花费 很 长 时 间 。 你 可 
以 通过 设置 wait_for_merge 为 false ， 将 操作 发 送 到 后 台 进 行 。 


导致 优化 (或 合并 ) 操作 缓慢 的 可 能 原因 之 一 是 ， 默 认 情况 下 
Elasticsearch 限 制 了 合并 操作 所 能 使 用 的 MO 吞吐 量 的 份 笑 。 该 限制 称 
为 存储 限 流 (store throttling) 。 稍 后 我 们 来 讨论 这 个 设置 ， 以 及 一 些 
其 他 的 数据 存储 选项 。 


10.2.3 ”存储 和 存储 限 流 


在 Elasticsearch 的 早期 版 本 中 ， 过 度 的 合并 将 会 拖 慢 集群 ， 以 至 于 
索引 和 搜索 请 求 慢 得 无 法 接受 ， 或 者 是 所 有 的 节点 都 无 法 啊 应 。 这 都 
是 因为 合并 时 对 VO 产生 了 压力 ， 导 致 新 分 段 的 写 入 很 缓慢 。 此 外 ， 由 
于 IO 的 等 待 ，CPU 的 负载 也 会 很 高 。 


鉴于 此 ，Elasticsearch 目 前 使 用 了 存储 限 流 ， 来 限制 合并 可 以 使 用 
的 MO 吞吐 量 。 默 认 情 况 下 有 一 个 节点 层级 的 设置 ， 称 为 
indices.store.throttle.max_bytes_per_sec ， 在 版 本 1.5 中 
其 默认 值 是 20mb FH ° 


这 个 限制 在 很 多 应 用 中 对 于 稳定 性 而 言 是 很 好 的 ， 但 不 是 对 所 有 
场景 都 是 最 佳 的 。 如 果 你 有 高 速 的 机 絮 和 许多 有 索引， 即使 有 足够 的 
CPU 和 WO 来 执行 合并 ， 由 于 限 流 的 原因 合并 还 是 无 法 跟 上 市 奏 。 在 这 
种 情况 下 ，Elasticsearch 只 使 用 单个 线程 来 进行 内 部 的 索引 ， 将 其 速度 
放 缓 ， 使 得 合并 可 以 跟 得 上 。 最 后 ， 如 果 你 的 机 器 足够 快 ， 索 引 可 能 
会 被 存储 限 流 。 对 于 使 用 SSD 硬 一 的 节点 ， 通 销 可 以 将 这 个 限 流 值 增 
大 到 100~-200 MB 字 节 。 


1. 修改 存储 限 流 的 限制 


如 果 你 有 高 速 的 硬 副 ， 而 且 需 要 更 多 的 MO 吞吐 用 于 合并 ， 你 可 以 
增加 存储 限 流 的 限制 ， 也 可 以 将 ijndices 
.Store.throttle.type 设置 为 none ， 完 全 取消 这 个 限制 。 你 还 
可 以 走向 另 一 个 极端 ， 通 过 将 indices.store.throttle.type 设 
置 为 al11 ， 使 存储 限 流 的 限制 应 用 到 所 有 Elasticsearch 的 磁盘 操作 ， 而 
不 仅仅 是 merge 。 


这 些 设置 可 以 在 每 个 节点 的 elasticsearch.yml 中 修改 ， 也 可 以 通过 
集群 更 新 设置 API 在 运行 时 修改 它们 。 通 常 ， 你 最 好 一 边 监控 合并 的 
程度 以 及 其 他 的 磁盘 活动 ， 一 边 调 优 这 些 设置 一 一 我 们 将 在 第 11 半 告 
诉 你 如 何 做 到 这 些 。 


基于 Lucene 5.0 的 Elasticsearch 2.0， 将 使 用 Lucene 的 自动 O 限 流 特 性 。 该 特性 会 依据 索 
引 的 情况 ， 上 自动 地 对 合并 进行 限 流 。 如 果 索 引 的 量 很 小 ， 合 并 会 受到 较 大 程度 的 限 流 ， 以 
ye a 。 如 果 索 引 的 量 较 大 ， 那 么 对 于 合并 的 限制 就 较 小 ， 这 样 合并 才 不 
BieaT RI ° 


下 面 的 命令 行 会 将 限 流 的 设置 提升 到 500MB/ 每 秒 ， 不 过 是 针 对 所 
有 操作 。 这 会 使 修改 持续 有 效 ， 即 使 在 集群 重启 之 后 (这 和 集群 重启 
后 就 失效 的 临时 性 设置 是 相反 的 ) 。 


% curl -XPUT localhost:9200/_cluster/settings -d '{ 
"persistent": { 
"indices.store.throttle": { 
"type" . be 
: 1 


"max_bytes_per_sec": "500mb" 


你 也 可 以 通过 获取 集群 的 设置 ， 来 看 看 索引 设置 是 否 生殖 。 你 要 运行 cur1 
localhost: 9200/_cluster/settings?pretty ° 


2. 配置 存储 


当 我 们 讨论 冲刷 、 合 并 和 存储 限 流 的 时 候 ， 提 及 了 “位 
盘 * 和 “1/O”， 因 为 这 是 默认 的 选择 : Elasticsearch 会 将 索引 存储 到 数据 
目录 ， 如 有 果 你 是 从 RPM/DEB 包 安装 的 Elasticsearch， 那 么 默认 值 
cele reson 如 果 你 地 解压 tar.gz 或 ZIP 压 缩 包 来 
闭 的 ， 那 么 默认 目录 是 data/。 可 以 通过 elasticsearch.yml 的 
h.data 属性 来 修改 数据 目录 。 


在 path.data 属性 中 ， 你 可 以 指定 多 个 目录 (至 少 在 版 本 1.5 中 是 可 以 的 ) ， 这 会 将 
不 同 的 文件 放 入 不 同 的 目录 ， 以 此 获得 数据 的 拆 分 (假设 这 些 目 5 FRIRE) 。 如 
果 那 是 你 所 追求 的 ， 一 定 要 有 足够 的 经 费 使 用 RAID0 磁 盘 阵 列 ， 确 保 性 能 和 可 靠 度 都 很 不 
考虑 到 这 一 点 ， 规 划 最 好 是 将 每 个 分 片 放 入 同样 的 目录 ， 而 不 是 将 其 拆 分 到 不 同 的 磁 
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JPI 
= 


PEE 


默认 的 存储 实现 将 索引 文件 存放 到 文件 系统 ， 多 数 情 况 下 这 没有 
什么 问题 。 为 了 访问 Lucene 的 分 段 文件 ， 默 认 的 存储 实现 使 用 了 
Lucene 的 MMapDirectory ， 它 通常 用 于 大 型 的 文件 ， 或 者 是 需要 随 
机 访问 的 文件 ， 如 词 条 字典 。 对 于 其 他 类 型 的 文件 ， 如 存储 字段 ， 
Elasticsearch 使 用 了 Lucene 的 NIOFSDirectory ° 


3. MMapDirectory 


MMapDirectory 利用 了 文件 缓存 ， 请 求 操作 系统 将 所 需 的 文件 
映射 到 虚拟 内 存 ， 这 样 能 更 快 地 直接 访问 这 些 内 存 。 对 于 Elasticsearch 
而 言 ， 看 上 去 所 有 的 文件 都 是 可 以 在 内 存 中 访问 的 ， 但 是 实际 情况 不 
必 如 此 。 如 果 你 的 内 存 规模 大 于 可 用 的 物理 内 存 ， 操 作 系统 会 将 没有 
使 用 的 文件 移出 缓存 ， 为 需要 读 取 的 新 文件 腾 出 空间 。 如 果 
Elasticsearch 再 次 需要 哪些 未 被 缓存 的 文件 ， 这 些 文 件 会 被 加 载 到 内 
存 ， 而 其 他 没有 使 用 的 文件 被 挪 出 内 存 等 如 此 反复 。 
MMapDirectory 使 用 的 虚拟 内 存 和 系统 的 虚拟 内 存 (交换 空间 ) 工 
作 方 式 相似 。 对 于 系统 的 虚拟 内 存 ， 操 作 系 统 将 没有 使 用 的 内 存 空间 
放 入 位 盘 ， 这 样 整个 系统 就 能 够 服务 于 多 个 应 用 程序 。 


4. NIOFSDirectory 


ABR HOE, BRERA a ER, AA DB 
诉 操作 系统 在 访问 文件 之 前 先 对 其 进行 映射 。 为 了 减 小 这 个 开销 ， 
Elasticsearch 为 某 些 类 型 的 文件 使 用 了 NIOFSDirectory 。 
NIOFSDirectory 是 直接 访问 文件 的 ， 但 是 它 必 须 将 所 需 的 数据 复 
制 到 JVM 堆 的 缓存 中 。 对 于 小 型 的 、 按 序 访问 的 文件 这 样 操作 没有 问 
题 ， 而 同时 MMapDirectory 能 很 好 地 工作 于 大 型 随机 访问 的 文件 。 


对 于 多 数 情况 ， 默 认 的 存储 实现 就 已 经 很 榨 了 。 但 是 ， 可 以 将 索 
引 设 置 中 ijndex.store. type 的 default 修改 为 其 他 值 来 选择 不 
同 的 实现 。 


。mmapfs — 一 该 选项 只 会 使 用 MMapDirectory 。 如 果 你 有 一 个 

相对 静止 的 索引 ， 而 且 物 理 内 存 也 能 放下 该 索引 ， 那 么 这 种 选择 
会 运作 得 很 好 。 

e niofs 一 一 该 选项 只 会 使 用 NIOFSDirectory ， 在 32 位 系统 
可 以 很 好 地 运作 。 因 为 在 32 位 系统 中 ， 虚 拟 内 存 的 寻 址 空间 被 限 
制 在 4 GB。 这 种 大 小 也 使 得 用 于 更 大 索引 的 mmapfs default 
选项 不 太 适 合 。 


当 创 建 索 引 的 时 候 ， 需 要 设置 存储 类 型 。 例 如 ， 下 面 的 命令 创建 
了 一 个 基于 mmap 的 索引 ， 称 为 单元 测试 (unit-test) ° 


% curl -XPUT localhost:9200/unit-test -d '{ 


"index.store.type": "mmapfs" 


如 有 果 你 想 对 所 有 新 建 的 索引 ， 都 运用 同样 的 存储 类 型 ， 可 以 在 
elasticsearch.yml 中 将 jndex .store.type 设置 为 nmapfs 。 第 11 章 
将 介绍 索引 模板 ， 它 允许 你 为 匹配 特定 模式 的 新 索引 定义 索引 的 设 
置 。 模 板 可 以 在 运行 时 进行 修改 ， 因 此 如 果 你 经 常 创建 新 的 索引 ， 我 
们 推荐 使 用 模板 而 不 是 较为 静态 的 elasticsearch.yml 。 


由 文件 打开 和 虚拟 内 存 的 限 和 


存储 于 磁盘 上 的 Luceney 分 段 可 以 分 布 在 多 个 文件 中 ， 当 搜索 运行 时 ， 操 作 系 统 需 要 扩 
很 多 文件 。 同 样 ， 当 你 使 用 默认 的 存储 闫 型 或 hnapfS 时 ， 操 作 系 统 不 得 不 将 一 些 存储 
的 文件 映射 为 内 存 即使 这 些 文件 实际 上 并 不 在 内 存 中 ， 应 用 程序 还 是 认为 它们 位 于 内 
存 里 ， 而 系统 内 核 负 责 将 这 些 ei Linux 系 统 已 经 配置 了 一 定 的 限 
制 ， 防 止 应 用 程序 一 次 性 扣 多 的 文件 而 消耗 过 大 的 内 存 。 对 于 Elasticsearch 部 署 的 需求 
而 言 ， 这 些 设置 通常 过 于 保守 ， Bice 。 如 果 你 是 从 DEB 或 RPM 包 安 
装 的 Elasticsearch， 不 必 担 心 这 一 点 ， 因 为 默认 情况 Pa 在 可 以 
Re 这 些 变 


SE 


可 


a 


MAX_OPEN_FILES=65535 


MAX_MAP_COUNT=262144 


为 了 手动 增加 这 些 限制 值 ， 需 要 以 启动 Elasticsearch 的 用 户 身 份 为 打开 文件 运行 
ulimit -n 65535 ， 以 root 管 理 员 的 身份 为 虚拟 内 存 运行 sysct1 -w 
vm.max_map_count =262144 ° 


由 于 操作 系统 缓存 文件 的 万 式 ， 稚 认 的 存储 类 型 通 币 是 最 快 的 。 
为 了 使 缓存 运作 民 好 ， 需 要 足够 的 空 几 内 存 。 


从 版 本 2.0 的 Elasticsearch 开 始 ， 你 可 以 将 jndex .codec 设置 为 best_compression 
， 来 压缩 存储 字段 (以 及 _source ) “默认 的 值 (名 为 default , 存储 类 型 自 带 的 ) 仍 
然 会 使 用 LZ4 算 法 来 压缩 存储 字段 ， 但 是 best_compression 使 用 的 是 deflate 压 缩 算法 。 
更 高 的 压缩 率 会 拖 慢 需要 _source 的 操作 ， 如 获取 结果 或 者 是 关键 词 高 亮 。 其 他 的 操作 ， 
如 聚集 ， 应 该 是 差不多 快 的 ， 因 为 整体 的 索引 规模 会 更 小 ， 也 更 容易 缓存 。 


我 们 曾经 提 到 ，merg 以 及 optimize 操作 是 如 何 使 缓存 失效 
的 。 让 Elasticsearch 管 理 缓存 并 保持 良好 的 性 能 ， 是 值得 好 好 地 解释 一 
番 ， 接 下 来 讨论 相关 的 内 容 。 


[4] ”由 于 内 存 中 的 搜索 会 快 很 多 ， 所 以 作者 使 用 “开心 ”(happy) 一 
词 体现 Elasticsearch 的 性 能 提升 。 一 一 译 者 注 


10.3 ”充分 利用 缓存 


Elasticsearch 的 强项 之 一 (尽管 不 是 最 强项 ) 就 是 你 可 以 使 用 普通 
的 人 硬件， 在 这 秒 级 查询 数 十 亿 的 文档 。 使 这 成 为 可 能 的 原因 之 一 是 窜 
能 的 缓存 。 你 可 能 已 经 注意 到 了 ， 索 引 了 大 量 的 数据 之 后 ， 第 二 次 的 
查询 速度 可 能 比 第 一 次 的 快 上 几 个 数量 级 。 这 都 是 因为 缓存 ， 例 如 ， 
当 你 组 合 了 过 滤 絮 和 查询 ， 过 滤 絮 绥 存 就 会 扮演 一 个 重要 的 角色 ， 让 
搜索 运行 得 更 快 。 


在 本 记 中 ， 我 们 将 讨论 过 滤器 缓存 以 及 其 他 两 种 类 型 的 缓存 ， 分 
片 查 询 缓存 以 及 操作 系统 缓存 。 在 静态 索引 上 运行 聚集 的 时 候 ， 分 瞩 


FiS 


查询 缓 存 非常 有 用 ， 因 为 它 缓存 了 整个 结 来。 而 操作 系统 缓存 ， 通 过 
将 索引 缓存 到 内 存 中 ， 来 保持 高 速 的 VO 吞 吐 量 。 


最 后 ， 我 们 将 同 你 展示 在 每 次 刷新 之 后 ， 如 何 使 用 索引 预 热 器 来 
运行 查询 ， 并 保持 缓存 处 于 热身 状态 I。 让 我 们 先 从 Elasticsearch 相 
以 及 如 何 运行 搜索 来 充分 利用 该 
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10.3.1 IBRA eae 


在 第 4 章 中 ， 你 看 到 很 多 查询 都 有 对 等 的 过 滤 历 。 让 我 们 假设 你 想 
在 getrtogether 站 扎 上 查找 最 近 一 个 月 开展 的 活动 。 为 了 实现 这 个 目 
标 ， 可 以 使 用 范围 查询 或 者 是 对 等 的 范围 过 滤器 。 


在 第 4 章 ， 我 们 提 到 对 于 这 两 者 ， 推 荐 使 用 过 滤器 ， 因 为 它 是 可 以 
缓存 的 。 默 认 情 况 下 范围 过 小 器 是 被 缓存 的 ， 也 可 以 通过 _cache jz 


标 来 控制 一 个 过 滤器 是 否 被 缓存 。 


版 本 2.0 的 Elasticsearch 默 认 地 只 会 缓存 较 大 分 段 (至 少 合并 过 一 次 ) 上 的 常用 过 滤 
器 。 做 在 防止 过 多 缓存 的 同时 ， 也 可 以 发 现 常 用 的 过 滤器 $ 并 优化 已 们 。 更 多 实现 的 台 
节 参考 Flasticsearch 关 于 过 滤器 缓存 的 常见 问题 和 Lucene 关 于 过 滤器 缓存 的 常见 问题 。 
这 个 旗 标 送 用 于 所 有 的 过 滤器 例如 ， 下 面 的 代码 片段 将 过 小 出 verbatim 标签 中 包 
&"elasticsearch" 关键 词 的 事件 ， 但 是 不 会 缓存 其 结果 。 


% curl localhost:9200/get-together/group/_search?pretty -d '{ 
"query": { 
"filtered": { 
"filter": { 
"term": { 
"tags.verbatim": "elasticsearch", 
"cache": false 


& 管 所 有 的 过 滤器 都 有 _cache 旗 标 ， 它 并 不 是 100% 都 本 以 适用 的 。 对 于 范围 过 滤 
器 ， 如 果 你 将 "now" (现在 ) 作为 一 个 边界 ， 旋 标 就 会 被 忽略 。 对 于 has_child 或 
has_parent 过 滤器 ， “cache 旗 标 根本 就 不 起 作用 。 


1. 过 滤器 缓存 


过 滤 需 的 结果 被 缓存 之 后 会 存储 在 过 滤 右 缓存 中 。 这 种 缓存 分 配 

在 节点 之 上 ， ts 其 默认 的 值 是 10%， 不 过 可 

以 按照 需要 ， 在 elasticsearch.yml 中 修改 这 个 值 。 如 果 你 经 常 使 用 过 小 
asst ete SEN, BK SAVERS SAY o BUH: 


indices.cache.filter.size: 30% 


你 怎么 知道 是 否 需要 更 多 (或 更 少 ) 的 缓存 ? 监控 实际 的 使 用 情 
况 。 在 第 11 章 的 管理 篇 ， 我 们 将 探索 这 个 话题 。Elasticsearch 使 用 了 很 
多 度量 指标 ， 包 括 实 际 使 用 的 过 滤器 缓存 容量 ， 以 及 缓存 回收 
(eviction) 的 次 数 。 当 缓存 已 满 ，Elasticsearch 需 要 将 近期 最 少 使 用 
e a 0 5 
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在 某 些 使 用 场景 中 ， 过 滤器 绥 存 条 目的 生命 周期 非常 短暂 。 举 个 
例子 ， 用 户 经 党 使 用 特定 的 主题 来 过 滤 get-together 活 动 ， 修 改 查 询 直 
到 发 现 他 们 所 想 要 的 ， 然 后 离开 。 如 采 没 有 其 他 人 搜索 同样 主题 的 活 
动 ， 那 么 相应 的 绥 存 条 目 在 内 存 中 逗留 却 无 法 发 挥 作用 ， 直 到 最 终 被 
回收 。 回 收 操作 很 多 的 缓存 会 使 得 性 能 下 降 。 因 为 每 次 搜索 时 ， 都 要 
回收 旧 的 缓存 条 目 来 容纳 新 的 条 目 ， 这 需要 请 耗 CPU 的 计算 周期 。 


在 这 种 情况 下 ， 为 了 防止 恰好 在 查询 执行 的 时 候 发 生 回 收 ， 设 置 
缓存 条 目的 生存 时 间 (TTL) 是 很 有 意义 的 。 你 可 以 调整 每 个 索引 的 
index.cache.filter.expire 来 实现 这 个 目的 。 例 如 ， 在 下 面 的 
代码 片段 中 ， 过 滤器 缓存 将 在 30 分 钟 后 过 期 。 


% curl -XPUT localhost:9200/get-together/_settings -d '{ 


"index.cache.filter.expire": "30m" 
T 


除了 确保 你 的 过 滤 右 缓存 有 足够 的 空间 ， 还 需要 合理 使 用 过 渡 
an, TEASED A ARR 


2. 组 合 过 滤器 


你 需要 经 闻 组 合 过 滤 右 。 例 如 ， 当 搜索 特定 时 间 艺 围 内 的 活动 
时 ， 你 还 想 限定 特定 的 参与 者 数量 。 为 了 最 好 的 性 能 ， 需 要 确保 当 过 
滤 絮 组 合 之 后 ， 绥 存 得 到 民 好 的 使 用 ， 而 且 过 滤 右 是 按照 正确 的 顺序 


一 一 


运行 的 。 


K TERREA, Fe eB e B4e ey 
一 个 概念 : 位 集合 (bitset) 。 位 集合 是 一 个 紧凑 的 位 数组 ， 
Elasticsearch 用 它 来 缓存 某 个 文档 是 否 和 过 滤器 匹配 。 多 数 过 滤器 (如 
range 过 滤器 和 terms wisas) 使 用 位 集合 进行 缓存 。 其 他 的 过 滤器 

(如 script 过 滤器 ) 不 使 用 位 集合 ， 因 为 无 论 如 何 Elasticsearch 都 不 
得 不 近 历 所 有 的 文档 。 表 10-1 展 示 了 哪些 重要 的 过 滤 怖 使 用 了 位 集 
合 ， 而 哪些 没有 。 


表 10-1 ”哪些 过 滤器 使 用 了 位 集合 


是 ， 但 是 你 可 以 有 不 同 配置 ， 稍 后 介绍 


geo 过 滤器 (参加 附录 A) 


对 于 没有 使 用 位 集合 的 过 滤器 ， 仍 然 可 以 将 _cache 设置 为 true 
， 将 完全 相同 的 过 滤器 结果 进行 缓存 。 位 集合 和 简单 的 结果 缓存 不 同 
之 处 在 于 位 集合 有 如 下 的 特点 。 


它们 很 紧凑 而 且 很 容易 创建 ， 所 以 在 过 滤器 首次 运行 时 创建 缓存 
的 额外 开销 不 大 。 

它们 是 按照 独立 的 过 滤器 来 存储 的 ， 例 如 ， 如 果 你 在 两 个 不 同 的 
查询 中 或 者 bool 过 滤 絮 使 用 了 一 个 terms WIES, term 的 

位 集合 就 可 以 重用 。 

它们 很 容易 和 其 他 的 位 集合 进行 组 合 。 如 果 有 两 个 使 用 位 集合 的 
查询 ，Elasticsearch 很 容易 进行 一 个 位 的 AND 和 OR 操作 ， 来 判断 
哪些 文档 和 这 个 组 合 匹 配 。 


为 了 利用 位 集合 的 优势 ， 你 需要 在 bool 过 滤器 中 组 合 使 用 了 位 
集合 的 过 滤器 ， 并 进行 位 的 AND 或 OR 操作 ， 这 对 于 CPU 而 言 是 很 容易 
的 事情 。 举 例 来 说 ， 如 果 只 想 展 示 Lee 参 加 的 分 组 或 者 是 包含 
elasticsearch 标签 的 分 组 ， 那 么 代码 看 上 去 是 下 面 这 样 的 : 


"filter": { 
"pool": { 


"should": [ 


{ 
"term": { 
"tags.verbatim": "elasticsearch" 


}, 
{ 
"term": { 
"members": "lee" 


还 有 一 种 替换 方案 是 使 用 and 、or 和 not 过 滤器 来 组 合 多 个 过 
滤 絮 。 这 些 过 滤 右 的 工作 方式 有 所 不 同 ， 原 因 是 不 像 D001 WIER, 
它们 并 不 使 用 位 的 AND 或 OR 操作 。 它 们 先 运行 第 一 个 过 滤 右 ， 将 匹配 
的 文档 传送 到 下 一 个 过 着 得 ， 如 此 继续 下 去 。 如 此 一 来 ， 当 组 合 多 个 
不 使 用 位 集合 的 过 滤器 时 ，and 、or 和 not 过 滤器 就 是 更 好 的 选 


择 。 例 如 ， 如 有 果 你 想 展 示 至 少 有 3 位 会 员 、 活 动 是 于 2013 年 7 月 组 织 的 
分 组 ， 过 滤器 看 上 去 可 能 是 下 面 这 样 的 ; 


"filter": { 
"and": [ 


"has_child": { 
"type": "event", 
"filter": { 
"range": 
m 
"from": "2013-07-01T00:00", 
"to": "2013-08-01T00:00" 


"script": { 
"script": "doc['members'].values.length > minMembers", 
"params": { 
"minMembers": 2 


如 果 同 时 使 用 位 集合 和 非 位 集合 的 过 小 器， 你 可 以 将 位 集合 租 入 
到 bool 过 滤器 内 部 ， 然 后 再 将 bool 过 滤器 放 入 到 and 、or 和 not 
的 过 小 絮 里 ， 和 非 位 集合 过 滤 絮 一 起 使 用 。 例 如 ， 代 码 清 单 10-6 将 查 
找 至 少 有 两 位 会 员 的 分 组 ， 并 且 要 求 Lee 是 其 中 一 位 会 员 ， 或 者 该 分 组 
是 关于 Elasticsearch 的 。 


代码 清单 10-6 ”将 bool 过 滤器 中 的 位 集合 ， 同 “与 ”或 ”“ 非 ”过 滤器 进行 结合 


curl localhost:9200/get-together/group/_search?pretty -d'{ 
"query": { =--- 过 滤 查 询 意 味 着 如 果 你 在 这 里 增加 一 个 查询 ， 它 只 会 在 匹配 过 


滤器 的 文档 上 运行 


"filtered": { 
"filter": { 
"and": [ 


=- - -这 里 AND 过 滤器 将 首先 执行 布尔 查询 


"pool": { 
~-- -在 缓存 的 时 候 ， 布 尔 操 作 更 快 ， 因 为 它 利 用 了 两 个 词 条 过 滤器 的 位 集合 
"should": [ 
"term": { 
"tags.verbatim": "elasticsearch" 
} 
ty 
{ 
"term": { 
"members": "lee" 
} 
} 
] 
} 
ty 
"script": { =--- 脚 本 过 滤器 只 会 在 匹配 布尔 过 滤器 的 文档 上 运行 
"script": "doc[\"members\"].values.length > 


minMembers", 
"params": { 
"minMembers": 2 


Tie iKe2H Gbool » and 、or 还 是 not 过 滤器 ， 它 们 的 执行 顺 
序 非常 关键 。 轻 量 级 的 过 滤器 〈 如 terms HIE) 应 该 在 更 耗资 源 的 
过 滤器 (script 过 滤器 ) 之 前 运行 。 经 过 先前 的 过 滤 ， 耗 资源 的 
过 滤 占 可 以 在 较 小 的 文档 集合 上 运行 。 


3. 在 字段 数据 上 运行 过 滤器 


目前 ， 我 们 已 经 讨论 了 位 集合 以 及 缓存 结果 是 如 何 让 过 滤器 运行 
得 更 快 。 一 些 过 滤器 使 用 位 集合 ， 而 男 一 些 可 以 缓存 整个 结果 。 还 有 
一 些 过 滤 絮 也 可 以 在 字段 数据 上 运行 。 第 6 章 首次 讨论 了 字段 数据 ， 它 
是 内 存 中 的 结构 ， 保 持 了 文档 到 词 条 的 映射 。 由 于 倒 排 索引 是 将 词 条 
了 映射 到 文档 ， 所 以 这 种 映射 和 倒 排 索引 是 相反 的 。 字 段 数据 常常 用 于 
排序 和 聚集 ， 不 过 某 些 过 滤器 也 可 以 使 用 它 : 包括 terms 和 range 过 
滤器 。 


内 存 中 字段 数据 的 一 个 替换 方案 是 文档 值 ， 它 是 在 索引 的 阶段 计算 并 和 索引 一 起 存储 
磁盘 上 。 在 第 6 章 我 们 指出 ， 文 档 值 适用 于 数值 型 和 未 分 析 的 字符 串 字 段 。 在 2.0 版 本 的 
Elasticsearch 中 , a 于 这 些 类 型 的 字段 。 原 因 是 在 JVM 扒 中 保持 这 些 
字段 数据 通常 不 会 提升 性 和 


一 个 terms 过 滤器 可 以 拥有 许多 词 条 ， 而 且 一 个 范围 很 广 的 
range 过 滤器 也 会 匹配 很 多 数值 (数值 也 是 一 种 词 条 ) 。 正 常 地 执行 
这 些 过 滤 颖 ， 将 会 单独 地 匹配 每 一 个 词 条 ， 并 返回 唯一 文档 的 集合 ， 
如 图 10-6 所 示 。 


过 滤器 : [apples, bananas] 


apples 1,4 
oranges 3 


pears 23 [1,4] + [2.4] = [1,2,4] 


bananas 


图 10-6 ”默认 情况 下 ， 词 条 过 滤器 会 逐个 检查 哪些 文档 匹配 某 个 词 条 ， 然 后 取 列 表 的 交集 


可 以 想象 ， 使 用 多 个 词 条 过 滤 可 能 会 非常 消耗 资源 ， 因 为 有 太 多 
的 列表 需要 取 交 集 。 当 词 条 的 数量 很 大 时 ， 如 果 逐 一 取出 实际 的 字段 
值 ， 并 判断 词 条 是 否 都 匹配 ， 而 不 是 查看 倒 排 索引 ， 那 么 可 能 会 更 快 
一 些 ， 如 图 10-7 所 示 。 


过 滤器 : [apples, bananas] 


l apples 

2 pears, bananas 
[1.2.4] 
3 pears, oranges 
4 


apples, bananas 


图 10-7 字段 数据 的 执行 意味 着 遍历 每 篇 文档 ， 而 不 是 进行 列表 的 取 交 集 


terms 和 range 过 滤器 中 的 execution 设置 为 fielddata 
之 后 ， 这 些 字段 值 就 会 被 加 载 到 字段 数据 的 缓存 。 例 如 ， 下 面 的 
range 过 滤器 将 获取 2013 年 举办 的 活动 ， 而 且 是 在 字段 数据 上 执行 。 


"filter": { 
"range": { 
"date": { 
"gte": "2013-01-01T00:00", 
"It": "2014-01-01T00:00" 


ty 


"execution": "fielddata" 


如 有 条 字段 数据 已 经 被 排序 和 聚集 操作 所 使 用 ， 那 么 这 里 使 用 字段 
数据 来 执行 是 特别 有 用 的 。 例 如 ， 在 tag 标签 字段 上 运行 一 个 terms 
聚集 ， 将 使 得 后 续 在 标签 上 的 terms 过 滤 更 快 ， 因 为 字段 数据 已 经 被 
加 载 到 缓存 。 


Terms 过 滤器 也 有 其 他 的 执行 模式 。 如 果 默 认 的 执行 模式 〈 也 称 为 plain ) 构建 了 
个 位 集合 来 缓存 整体 的 结果 集 ， 你 可 以 将 其 设置 为 boo1 ， 这 样 每 个 词 条 都 有 一 个 位 集 
合 。 当 你 有 不 同 的 terms 过 滤器 、 但 是 又 有 很 多 共同 词 条 的 时 候 ， 这 就 很 有 帮助 了 。 


同样 ， 还 有 and/or 执行 模式 ， 也 是 执行 类 似 的 过 程 ， 不 过 单个 的 terms 过 滤器 不 再 
封装 在 bo01 过 滤器 中 ， 而 是 封装 在 and/or 过 滤器 中 。 


通常 ，and/or 的 方法 比 b001 慢 ， 因 为 它们 没有 利用 位 集合 。 如 果 首 个 terms Wie 
器 只 匹配 了 少量 的 文档 ， 这 会 使 后 续 的 过 滤 极 度 之 快 ， 这 种 情况 下 and/or 的 操作 可 能 更 
天 


4 


m 


o 


总 结 一 下 ， 有 3 个 选项 来 运行 过 滤器 。 


将 它们 绥 存 到 过 滤 右 缓存 ， 对 于 过 滤 右 的 重用 非 第 有 益 。 

如 果 它 们 不 会 被 重用 ， 不 要 缓存 它们 。 

当 你 的 terms 和 range 过 滤器 有 很 多 词 条 的 时 候 ， 在 字段 数据 上 
Oe eae area 
了 o 


接 下 来 看 看 分 片 查 询 缓存 ， 在 静态 数据 上 重用 整个 搜索 请 求 的 时 
候 ， 这 一 点 很 有 价值 。 


10.3.2 ”分 片 查询 缓存 


过 滤器 缓存 的 设计 就 是 为 了 让 某 部 分 的 搜索 〈 也 就 是 配置 为 可 组 
存 的 过 滤器 ) 运行 得 更 快 。 它 也 是 和 分 段 相 关 的 : 如果 在 合并 过 程 中 
某 些 分 段 被 移 除 了 ， 其 他 分 段 的 缓存 仍然 是 保持 完整 的 。 对 比 之 下 ， 
分 片 查 询 绥 存在 分 片 的 级 别 上 ， 维 护 了 整个 请 求 及 其 结果 之 间 的 映 
BY, QUAI 10-8 所 示 。 对 于 新 的 请 求 ， 如 果 某 个 分 片 之 前 已 经 答复 过 一 
模 一 样 的 请 求 ， 那 么 它 将 使 用 缓存 来 服务 新 请 求 。 


过 滤器 : tag=elasticsearch 


聚集 来 自 多 个 分 片 的 结果 ， 
然后 返回 


在 过 滤器 
缓存 中 吗 ? 


分 片 


图 10-8 ”分 片 查询 缓存 比 过 滤器 缓存 更 高 一 层 


在 版 本 1.4 中 ， 分 片 级 别 的 缓存 结果 只 限于 命中 结果 的 总 数 (不 是 
fp PEE RAR) 、 育 集 的 总 数 和 建议 的 总 数 。 这 就 是 为 什么 (至少 在 
版 本 1.5 中 ) 只 有 当 查 询 的 search_type 为 count 时 ， 分 片 查询 缓存 


TAN ° 


a type 设置 为 count 之 后 ， 你 就 是 告诉 Elasticsearch 你 对 具体 


的 查询 结果 不 感 兴趣 ， 而 只 是 关心 它们 的 数量 。 本 章节 稍 后 将 谈 及 count 和 其 他 搜索 类 
型 。 在 版 本 2. 0 的 Elasticsearch 中 将 size 设置 为 0 有 同样 的 效果 ， 而 
search_type=count 将 被 弃 用 。 


随 看 请 求 的 不 同 ， 分 片 碍 询 缓存 条 目 也 有 所 不 同 ， 所 以 它们 只 适 
用 于 很 小 范围 的 请 求 。 如 有 果 搜 索 不 同 的 词 条 或 者 运行 了 稍 有 不 同 的 聚 
集 ， 绥 存 束 无 法 命中 。 此 外 ， 当 发 生 刷 新 或 者 分 片 内 容 改 变 的 时 候 ， 
所 有 分 片 查询 的 缓存 条 目 都 将 失效 。 否 则 ， 即 使 新 的 匹配 文档 已 经 加 
入 了 索引 ， 你 得 到 的 仍然 是 来 目 缓存 的 过 期 结 末 。 


这 种 缓存 的 局 限 性 意味 着 ， 只 有 在 分 斤 很 少 变 化 而 且 你 有 很 多 相 
同 请 求 的 时 候 ， 分 片 查 询 缓 存 才 能 体现 出 价值 。 例 如 ， 如 有 末 你 在 索引 
日 志 ， 而 且 索引 是 基于 时 间 的 ， 你 可 能 经 各 在 较 早 的 索引 上 运行 聚 
集 ， 而 这 些 索引 一 成 不 变 直 到 被 删除 。 那 么 这 些 较 早 的 索引 就 是 分 所 
查询 缓存 的 理想 候选 者 。 


为 了 在 默认 情况 下 束 开 启 索 引 上 的 分 片 查 询 缓存 ， 可 以 使 用 索引 
更 新 设置 的 API 接 口 。 


% curl -XPUT localhost:9200/get-together/_settings -d '{ 


"index.cache.query.enable": true 


和 所 有 的 索引 设置 一 样 ， 可 以 在 索引 创建 的 时 候 开启 分 片 查询 缓存 ， 但 是 只 有 在 新 索 
引 接收 到 了 很 多 查询 请 求 ， 而 且 索 引 内 容 很 少 更 新 的 时 候 ， 这 样 做 才 有 意义 。 


对 于 每 个 查询 ， 可 以 加 入 query_cache 参数 来 开启 或 者 关闭 分 
片 查询 缓存 ， 履 盖 掉 索引 级 别 的 设置 。 例 如 ， 为 了 缓存 get-together 索 
引 上 常用 的 top_tags 聚集 ， 即 使 默认 的 设置 是 关闭 的 ， 你 可 以 这 样 


运行 : 


% URL="localhost :9200/get-together/group/_search" 
% curl "$URL?search_type=counté&query_cache 


&pretty" -d '{ 
"aggs": { 
"top_tags": { 
"terms": 
"field": "tags.verbatim" 


MALIE RT, TAWA Ssize 配置 参数 。 这 个 限制 
可 以 在 节点 层级 进行 修改 ， 调 整 elasticsearch.yml 中 的 
indices.cache.query.size ， 默 认 值 的 是 JVM 堆 的 1% ° 


当 设 置 JVM 堆 的 大 小 时 ， 和 需要 确 你 给 过 滤 如 和 分 片 查询 缓存 都 预 
留 了 足够 的 空间 。 如 果 内 存 (特别 是 JVM 堆 ) 是 有 限 的 ， 你 应 该 降低 
绥 存 的 大 小 ， 为 索 引 和 搜索 请 求 留 出 更 多 的 内 存 空间 ， 避 人 免 产 生 out- 


of-memory 的 异常 。 


此 外 ， 除 了 JVM 的 堆 ， 你 需要 有 足够 的 空 采 内 存 ， 这 样 操 作 系 统 
才能 缓存 存储 在 磁盘 上 的 索引 ， 否 则 将 遭遇 很 多 较 慢 的 磁盘 查找 。 


人 以 及 为 什么 这 很 


10.3.3 JVM 堆 和 操作 系统 缓存 


如 果 Elasticsearch 没 有 足够 的 堆 来 完成 一 个 操作 ， 它 将 抛 出 一 个 
out-of-memory 的 异常 ， 很 快 该 廊 点 就 会 宕 机 ， 并 被 移出 集群 。 这 会 给 
其 他 的 节点 市 来 额外 的 负载 ， 因 为 系统 需要 复制 和 重新 分 配 分 配 ， 以 
恢复 到 初始 配置 所 需 的 状态 。 由 于 节点 通常 是 相同 的 配置 ， 额 外 的 负 
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当 JVM 堆 的 资源 很 紧张 的 时 候 ， 即 使 在 日 志 中 没有 看 见 out-of- 
memory 的 异 和 芝 ， 克 点 还 是 可 能 变 得 没有 啊 应 。 这 可 能 是 因为 ， 内 存 不 
够 迫使 垃圾 回收 器 (GC) 运行 得 更 久 或 者 更 频繁 来 释放 空 有 的 内 存 。 
由 于 GC 消 耗 了 更 多 的 CPU 资源 ， 克 点 伦 费 在 服务 请 求 甚至 是 应 答 主 万 
点 ping 的 计算 能 力 吏 更 少 了 ， 最 后 导致 节 氮 被 移出 集群 。 


二 区 回收 (GC S? LERI IR re Sl Vad DEL | 


当 垃 圾 回收 消耗 了 过 多 的 CPU 时 间 ， 工 程 师 总 是 试图 发 现 一 些 神奇 的 JVM 设 置 来 解决 
所 有 的 麻烦 。 多 数 情 况 下 ， 这 不 是 解决 问题 的 最 佳 途径 ， 因 为 过 度 的 垃圾 回收 只 是 
Elasticsearch 需 要 更 多 堆 内 存 的 征兆 。 


& 管 增加 堆 的 大 小 是 很 明显 的 解决 方案 ， 这 并 非 总 是 可 能 的 。 增 加 数据 市 点 同样 如 
此 。 然 而 ， 你 可 以 参考 一 些 技巧 来 降低 堆 的 使 用 。 


。 减 小 索引 缓冲 区 的 大 小 ， 如 10.2 闻 所 述 。 
。 减少 过 滤器 缓存 和 分 片 查询 缓存 的 大 小 。 
。 减少 搜索 和 聚集 请 求 中 size 参数 的 值 (对 于 限 集 ， 还 需要 考 虚 到 shard_size 


) 
。 如 果 必须 处 理 大 规模 的 数据 ， 你 可 以 增加 一 些 非 数 据 市 点 和 非 主 三 点 来 扮演 客户 端 
的 角色 。 它 们 将 负责 聚合 每 个 分 片 的 搜索 结果 ， 以 及 聚集 操作 。 


最 后 ，Elasticsearch 使 用 另 一 种 缓存 类 型 来 回避 Java 垃 圾 回收 的 方式 。 新 的 对 象 分 配 到 
名 为 新 生 代 的 空间 。 如 果 新 对 象 存活 得 足够 入， 或 者 太 多 的 新 对 象 分 配 到 新 生 代 导致 其 被 
， 这 些 新 对 象 就 会 被 :到 老年 代 。 尤 其 是 在 聚集 的 时 候 ， 需 要 遍历 大 量 的 文档 并 
创建 很 多 可 能 被 重用 的 对 象 ， 后 一 种 填 满 新 生 代 的 情况 就 会 出 现 。 


通常 ， 你 希望 将 这 些 可 能 被 聚集 重用 的 对 象 提 升 到 老年 代 ， 而 不 是 新 生 代 十 满 后 | 恰巧 
放 到 老年 代 的 一 些 随 机 的 、 临 时 的 对 象 。 为 了 实现 这 个 目标 ，Elasticsearch 实 现 了 一 个 页 面 
缓存 回收 器 (PageCacheRecycler) ， 其 中 被 聚集 所 使 的 大 数组 被 保留 下 来 ， 不 会 被 垃圾 
回收 。 默 认 的 页 面 绥 存 是 整个 堆 的 1096， 某 些 情况 下 这 个 值 可 能 太 大 (例如 ， 你 有 30 GB 的 
堆 内 存 ， 页 面 缓存 就 有 3 GB 了 ) 。 可 以 设置 elasticsearch.yml 中 的 
cache.recycler .page.1imit.heap 来 控 该 制 缓存 的 大 小 。 


不 过 ， 有 的 时 候 还 十 需要 调 优 JVM 的 设 转 (尽管 默认 已 经 很 好 了 ) ， 例 如 ， 你 的 内 存 
基本 够 用 ， 但 是 当 一 些 罕见 的 长 时 间 GC 停 顿 产 生 的 时 候 ， .集群 还 是 会 遇 到 厅 烦 。 有 一 些 设 
置 让 垃圾 回收 发 生得 更 频繁 ， 但 是 停顿 时 间 更 短 ， 降低 一 些 整体 的 吞吐 量 来 换取 更 少 的 延 
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。 增 加 幸存 者 区 (Survivor) 的 空间 (降低 -XX:SurvivorRatio [6] ) 或 者 是 整个 新 生 代 在 
堆 中 的 占 比 (降低 -XX:NewRatio l) 。 你 可 以 监控 不 同 的 年 代 来 判断 这 些 是 否 需要 
[8] 。 提 升 到 老年 代 需 要 花费 更 长 的 等 待 时 间 ， 而 更 富裕 的 空间 使 得 新 生 代 的 垃圾 回 
收 有 较 多 的 时 间 来 清理 临时 存在 的 对 象 ， 避 免 它 被 提升 到 老年 代 。 。 但 是 ， 将 新 生 
代 设 置 得 过 大 ， 将 使 得 新 生 代 的 垃圾 回收 过 于 频繁 而 且 变 得 效率 低下 ， 这 是 因为 生 
存 周期 更 长 ee ies rele x 间 来 回复 制 。 
。 使 用 G1 的 垃圾 回收 (-XX:+UseG1GC) ， 会 动态 地 为 不 同年 代 分 配 空间 ， 而 且 是 针 
对 大 内 存 、 低 延迟 的 使 用 场景 而 优化 的 。 在 版 本 1. Se RRR BOAR AE, 原因 是 


在 
a es E 所 以 在 生产 环境 中 使 用 G1 之 前 ， 请 确保 你 进行 了 彻底 的 
Yr ° 


1. 可 以 拥有 一 个 超大 的 堆 吗 


很 显然 堆 太 小 了 是 不 利 的 ， 但 是 堆 太 大 了 也 不 是 好 事 。 超 过 32 
GB 的 堆 会 自动 地 使 用 未 压缩 指针 ， 并 且 浪 费 了 内 存 。 内 存 有 多 浪费 ? 


这 取决 于 使 用 的 场景 如果 多 数 是 进行 聚集 操作 (使 用 指针 很 少 的 大 
数组 ， 它 可 能 是 32 GB 中 的 1 GB 那么 点 。 如 果 经 常 使 用 过 滤器 绥 存 
《有 很 多 指针 的 大 量 小 条 目 ) ， 它 可 能 就 是 10 GB 那么 多 。 如 果 你 真 
的 需要 多 于 32 GB 的 堆 ， 有 时 最 好 在 同一 台 机 器 上 运行 两 个 或 更 多 的 
节点 ， 每 个 节点 的 堆 少 于 32 GB， 并 且 通 过 分 片 机 制 来 切 分 数据 。 


如 果 在 同一 台 物 理 机 上 部 署 了 多 个 Elasticsearch 节 点 ， 你 需要 确保 同一 个 分 片 的 两 个 副 
本 分 片 没有 分 配 到 同一 个 物理 机 上 的 不 同 Elasticsearch 节 点 。 和 否则 ， 一 旦 这 人 台 物 理 机 罕 机 ， 
你 将 失去 这 个 分 片 的 两 个 副本 。 为 了 防止 这 个 现象 的 发 生 ， 可 以 使 用 第 11 章 的 分 片 配置 。 


低 于 32 GB 的 大 堆 可 能 仍然 不 理想 (实际 上 ， 正 好 32 GB 的 时 候 你 
已 经 失去 了 压缩 指针 ， 所 以 最 多 只 用 31 GB) 。 服 务 器 上 未 被 JVM 占 
用 的 内 存 ， 通 常 被 操作 系统 用 于 缓存 磁盘 上 的 索引 。 如 果 你 使 用 的 是 
三 性 或 网 络 存 储 ， 这 一 点 尤其 重要 ， 因 为 在 运行 查询 的 时 候 从 磁盘 获 
取 数 据 ， 将 会 导致 查询 响应 变 慢 。 即 使 使 用 更 快 的 SSD 存 储 ， 如 果 节 
点 所 存储 的 数据 量 可 以 放 入 操作 系统 缓存 ， 那 么 你 仍然 能 够 获得 更 好 


的 性 能 。 


现在 ， 我 们 已 经 理解 了 由 于 垃圾 回收 和 out-of-memory 的 问题 ， 太 
小 的 堆 是 不 利 的 。 同 时 ， 由 于 减少 了 操作 系统 的 缓存 ， 太 大 的 堆 也 是 
不 利 的 。 那 么 ， 合 适 的 堆 大 小 应 该 是 多 少 ? 


2. 理想 的 堆 大 小 : 遵循“ 一半” 原则 


在 不 知道 堆 的 实际 使 用 情况 时 ， 经 验 法 则 是 将 节点 内 存 的 一 半分 
配给 Elasticsearch， 但 是 不 要 超过 32 GB。 这 个 “一 半 ” 法 则 通常 给 出 了 
堆 大 小 和 系统 缓存 之 间 民 好 的 均衡 点 。 


如 采 可 以 监控 实际 的 堆 使 用 情况 (在 第 11 章 我 们 将 向 你 展示 如 何 
做 到 这 一 点 ) ， 一 个 好 的 堆 大 小 就是 足够 容纳 常规 的 使 用 ， 外 加 可 预 
期 的 高 峰 冲 击 。 内 存 使 用 的 高 峰 可 能 会 发 生 。 例 如 ， 某 些 人 决定 在 拥 
有 许多 唯一 词 条 的 分 析 字 段 上 ， 对 所 有 结 采 运行 一 次 terms RR ° X 
强迫 Elasticsearch 将 所 有 的 词 条 加 载 到 内 存 中 用 于 统计 。 如 采 你 不 知道 
经 样 的 高 峰 冲 击 ， 经 验 法 则 同样 是 一 半 : 将 扒 大 小 设置 为 比 常 规 
ray 140% ° 


WTERFRRHWAE, ERM TASHA o Hiei, Fy 
以 按照 最 适合 操作 系统 缓存 的 方式 ， 来 设计 索引 。 举 个 例子 ， 如 采 正 
在 索引 应 用 日 志 ， 你 可 以 预期 大 多 数 的 索引 和 搜索 将 涉及 最 近 的 数 
据 。 使 用 基于 时 间 的 索引 ， 最 新 的 索引 相对 于 整个 数据 集 而 言 更 可 能 
放 进 操作 系统 缓存 ， 这 使 得 大 多 数 的 操作 都 会 更 快 。 而 搜索 较 旧 的 数 
据 通 音 不 得 不 访问 磁盘 ， 不 过 对 于 时 间 路 度 很 长 的 少数 搜索 ， 用 户 更 
容易 接受 较 长 的 啊 应 时 间 。 总 体 来 说 ， 如 有 宁可 以 使 用 基于 时 间 的 索 
引 、 基 于 用 户 的 索引 或 者 路 由 ， 将 “热门 ”数据 放 入 同一 组 索引 或 分 
片 ， 那 么 你 将 充分 地 利用 操作 系统 的 缓存 。 


到 目前 为 止 ， 我 们 所 讨论 的 缓存 一 一 过 滤器 缓存 、 分 片 碍 询 缓存 
和 操作 系统 缓存 ， 通 音 都 是 在 查询 运行 的 时 候 进行 构建 的 。 加 载 缓存 
会 使 得 首次 查询 较 慢 ， 而 随 着 数据 量 和 查询 复杂 度 的 增加 ， 这 种 减速 
现象 也 会 加 剧 。 如 果 这 种 慢 已 经 成 了 一 个 问题 ， 那 么 可 以 使 用 索引 预 
热 占 ， 事 先 对 缓存 进行 热 映 ， 接 下 来 你 会 看 到 相关 内 容 。 


10.3.4 ”使 用 预 热 器 让 缓存 热 喘 


一 个 预 热 器 ” (warmer) 允许 你 定义 任何 类 型 的 搜索 请 求 : 它 可 以 
包 仿 查询、 过 滤器 、 排 序 条 件 和 聚集 。 一 旦 定义 完成 ， 预 热 右 会 让 
Elasticsearch 在 每 次 刷 靳 操作 之 后 ， 运 行 这 个 查询 。 这 样 做 会 使 得 刷新 
变 慢 ,但 是 用 户 查 询 将 总 是 运行 在 “热身 ”后 的 缓存 上 。 


当 甫 次 查询 非常 慢 的 时 候 ， 预 热 絮 是 很 有 用 处 的 ， 而 且 最 好 是 让 
刷新 操作 完成 热 吴 查询 ， 而 不 是 让 用 户 来 完成 。 如 果 我 们 的 get- 
together 站 点 拥有 数 百 万 的 活动 ， 而 且 表现 稳定 的 搜索 性 能 是 很 天 键 的 
话 ， 那 么 预 热 絮 束 会 很 有 用 处 。 较 慢 的 刷新 应 该 不 古 太 大 的 顾虑 ， 
为 这 里 可 以 预期 分 组 和 活动 被 搜索 的 次 数 要 比 被 修改 的 次 数 更 频繁 。 


为 了 在 现 有 的 索引 之 上 定义 一 个 预 热 器 ， 可 以 发 送 PUT 请 求 到 索 
引 的 URI， 其 类 型 设置 为 _ warmer ，ID 设置 为 选 好 的 预 热 器 名 称 ， 
如 代码 清单 10-7 所 示 。 你 可 以 拥有 任意 多 的 预 热 器 ， 不 过 要 记 住 ， 预 
热 器 越 多 刷新 就 越 慢 。 通 常情 况 下 ， 使 用 较 少 的 热门 查询 作为 预 热 
句 。 例 如 ， 代 码 清单 10-7 放 置 了 两 个 预 热 器 一 个 是 即将 到 来 的 活 
动 ， 还 有 一 个 是 热门 的 分 组 标签 。 


代码 清单 10-7 ”两 个 预 热 器 : 即将 到 来 的 活动 和 热门 


\N 
一 全 
a 
Si 


curl -XPUT ‘localhost :9200/get-together/event 


/_warmer/upcoming_events' -d '{ 
"sort" 


[ { 


"date" 


{ "order": "desc" } 


H 


# {"acknowledged": true} 
curl -XPUT ‘localhost :9200/get-together/group 


/_warmer/top_tags' -d '{ 
"aggs": { 
"top_tags": { 
"terms": { 


"field": "tags.verbatim" 


# {"acknowledged": true} 


稍 后 ， 你 可 以 在 _warmer 类 型 上 使 用 GET 请 求 ， 获 得 某 个 索引 的 
THAR INF © 


curl localhost :9200/get-together/_warmer?pretty 


你 还 可 以 向 预 热 器 的 URI 发 送 DELETE 请 求 ， 删 除 预 热 器 。 


curl -XDELETE localhost:9200/get-together/_warmer/top_tags 
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下 定义 预 热 需 ， 如 代码 清单 10-8 所 示 。 


代码 清单 10-8 在 索引 创建 的 时 候 注册 预 热 器 


curl -XPUT 'localhost:9200/hot_index' -d '{ 
"warmers": { 
"date_sorting": { =--- 预 热 器 的 名 称 。 你 也 可 以 注册 多 个 预 热 器 
"types": []， “~--- 这 个 预 热 器 应 该 运行 在 哪些 类 型 上 。 空 数组 表示 所 有 类 型 
"source": { =---- 这 个 预 热 器 按照 日 期 排序 
-- -在 这 个 键 之 下 ， 定 义 预 热 器 本 身 


"sort": [{ < 
"date": { 
"order": "desc" 


J 


当 使 用 基于 时 间 的 索引 时 ， 新 的 索引 可 能 是 自动 创建 的 。 此 时 ， 你 可 以 在 索引 模板 里 
定义 预 热 器 ， 这 样 预 热 器 会 自动 地 应 用 到 新 建 的 索引 中 。 在 关于 Elasticsearch 集 群 管理 的 第 
11 章 ， 我 们 将 讨论 更 多 涉及 索引 模板 的 内 容 。 


目前 为 止 已 经 讨论 了 通用 的 解决 方案 : 如 何 让 缓存 处 于 热 吴 状态 
而 且 保持 高 效 来 确保 搜索 够 快 ， 如 何 将 查询 合并 来 减少 网 络 的 延迟 ， 
以 及 如 何 配 置 分 段 的 刷新 、 冲 刷 和 存储 ， 使 得 索引 和 搜索 都 更 快 。 所 
有 这 些 都 能 降低 集群 的 负载 。 


下 面 ， 我 们 谈论 适用 于 特定 用 例 的 最 佳 实践 ， 这 些 会 使 脚本 执行 
得 更 快 或 者 十 深度 分 页 更 高 效 。 


[5] ”保持 索引 有 效 的 状态 一 一 译 者 注 


[6] ”该 比例 是 Eden 区 和 Survivor 区 的 比值 ， 所 以 降低 这 个 值 实际 上 是 
增加 了 Survivor 的 空间 。 译 者 注 


[7] ”该 比例 是 老生 代 和 新 生 代 的 比值 ， 所 以 降低 这 个 值 实际 上 是 增 
加 了 新 生 代 的 空间 。 一 一 译 者 注 


[8] ”Sematext 的 SPM 产 品 可 以 帮 你 实现 这 些 ， 参 考 附 录 D。 


10.4 其 他 的 性 能 权衡 


在 之 前 的 部 分 ， 你 可 能 已 经 注意 到 为 了 让 操作 更 快 ， 需 要 付出 一 
些 成 本 。 例 如 ， 如 采 你 通过 减少 刷新 的 频率 来 提升 穴 引 的 速度 ， 那 么 
你 付出 的 代价 惑 是 搜索 可 能 无 法 “看 见 ” 最 新 索 引 的 数据 。 在 本 章节 
中 ， 通 过 回答 下 列 话题 相 关 的 疑问 ， 我 们 将 持续 讨论 这 样 的 权衡 ， 特 
别 是 那些 发 生 在 特定 使 用 场景 下 的 。 


。 非 精确 匹配 一 是 应 该 在 索引 阶段 使 用 N 元 语法 (ngam) 和 清 
动 窗口 (shingle) 来 提速 搜索 ? 还 是 使 用 模糊 和 通 本 查询 更 好 ? 

“脚本 一 一 是 否 应 该 性 牲 一 些 灵活 性 ， 在 索引 的 阶段 尽 可 能 的 计 
算 ? 如 果 不 是 ， 如 何 进一步 提速 性 能 ? 

+ PARR 一 是 否 应 该 花费 一些 网 络 开销 ， 来 换取 更 准确 的 得 
分 1 

深度 分 页 一 为 了 更 快 地 获取 第 100 页 的 结果 而 消耗 更 多 的 内 
存 ， 这 样 做 是 否 值得 ? 


在 本 章节 结束 的 时 候 ， 我 们 将 回答 所 有 这 些 及 其 相关 的 问题 。 先 
从 非 精 确 的 匹配 开始 。 


10.4.1 ”大 规模 的 索引 还 是 昂贵 的 搜索 


还 记得 第 4 章 介 绍 的 非 精确 匹配 吧 ? 例如 ， 容 妨 错 拼 。 可 以 使 用 一 
系列 的 查询 来 实现 。 


。 模糊 查询 这 个 查询 匹配 和 原 有 词 条 有 一 定编 辑 距 离 的 词 条 。 
比如 ， 删 除 或 者 增加 一 个 字符 将 产生 1 的 编辑 距离 。 

。 AAR A a eas 这 个 查询 匹配 以 某 个 序列 开头 的 词 条 。 

。 通配符 这 些 允 许 你 使 用 ? 和 * 来 代替 一 个 或 多 个 字符 。 举 个 
例子 ，"e*search" 将 会 匹配 “elasticsearch”。 


这 些 碍 询 提供 了 很 多 的 灵活 性 ， 但 是 它们 也 比 简单 的 查询 ， 如 词 
条 查询 ， 成 本 更 高 。 对 于 精确 匹配 ，Elasticsearch 只 需要 发 现 字 典 中 的 
1 个 词 条 就 行 ， 但 是 模糊 、 前 级 和 通 配 查询 必须 发 现 所 有 和 给 定 模 式 相 
匹配 的 词 条 。 


还 有 另 一 个 解决 方案 来 兼容 错 拼 和 其 他 非 精 确 的 匹配 : NN 元 语法 

(ngram) 。 第 5 章 我 们 介绍 过 N 元 语法 为 单词 的 每 个 部 分 产生 分 词 。 

如 果 在 索引 和 查询 的 时 候 都 使 用 N 元 语法 ， 你 将 获得 和 模糊 查询 类 似 
的 功能 ， 如 图 10-9 所 示 。 


对 于 性 能 而 言 哪个 方法 是 最 好 的 ? 和 本 章 所 介绍 的 其 他 内 容 一 
样 ， 这 里 是 考虑 权衡 ， 你 需要 选择 为 哪些 期 望 付出 成 本 。 


RAE TREN 查询 ， 但 是 索引 和 精确 匹配 一 样 ， 保 持 不 

全 o 

男 一 方面 ，N 元 语法 增加 了 索引 的 大 小 。 根 据 N 元 语法 和 词 条 数量 
的 大 小 ， 引 入 N 元 语法 的 索引 其 规模 可 以 增加 数 倍 。 同 样 ， 如 果 
想 修 改 N 元 语法 的 设置 ， 你 不 得 不 重建 全 部 的 数据 ， 所 以 灵活 性 
更 小 ， 不 过 使 用 N 元 语法 后 ， 通 常情 况 下 搜索 整体 惑 更 快 了 。 


当 碍 询 的 延迟 是 关键 的 时 候 ， 或 者 有 很 多 的 并 发 查询 需要 文 持 的 
时 候 ， 你 需要 每 个 查询 消耗 更 少 的 CPU 资源 ， 此 种 情况 下 N 元 语法 的 
方法 稼 第 会 更 好 。NN 元 语法 使 得 索引 变 得 更 大 ， 因 此 需要 操作 系统 的 
缓存 能 容纳 得 下 这 些 索引 ， 或 者 是 读 写 更 快 的 磁盘 ， 人 否则 ， 人 性 能 将 会 
因为 索引 过 大 而 下 降 。 


另 一 方面 ， 当 需要 较 高 的 索引 吞吐 量 (这 里 索引 大 小 很 成 问 
题 ) ， 或 者 磁盘 读 写 较 慢 时 ， 模 糊 查询 的 方法 就 更 好 一 些 。 如 果 需 要 
经 常 修改 查询 ， 模 糊 查 询 也 是 很 有 帮助 的 。 例 如 ， 调 整编 辑 距离 ， 无 
须 重建 所 有 的 数据 ， 束 能 进行 修改 。 


1. 前 缀 查询 和 侧 边 N 元 语法 


对 于 非 精 确 的 匹配 ， 经 常 假设 开头 的 字符 都 是 准确 的 。 例 如 ， 搜 
索 “elastic" 可 能 是 要 查找 “elasticsearch”。 这 时 可 以 考虑 前 绥 查 询 。 和 模 
糊 查 询 一 样 ， 前 绥 查 询 比 普通 的 词 条 查询 成 本 更 高 ， 因 为 需要 查找 更 


多 的 词 条 。 


更 多 的 编辑 降低 了 得 分 。 


Y 


分 析 器 : denvre 分 析 器 : 
Ea 转 为 小 写 IE U a 转 为 小 写 Ea 
匹配 词 条 
文档 源 索引 的 词 条 搜索 的 模糊 查询 
词 条 的 字符 串 


更 多 的 匹配 词 条 增加 了 得 分 


/ 
分 析 器 : | 
转 为 小 写 , den Analyzer: 
NN 元 语法 的 lowercase, 
大 小 为 3 env ngram size=3 ta 
匹配 词 条 
索引 的 词 条 搜索 的 were 


词 条 


110-9 ” 相 比 模糊 查询 ，N 元 语法 产生 了 更 多 的 词 条 ， 但 是 匹配 的 时 候 是 精确 的 


E 的 替换 方法 是 第 5 章 介绍 的 侧 边 N 元 语法 (edge ngram) 。 
10- oR eT Meh INICIAM A ALE ST EE ° 


分 析 器 : 分 析 器 : 
转 为 小 写 [ aver 转 为 小 写 
cc 匹配 词 条 ， 因 为 它 
文档 源 索引 的 词 条 是 从 “denv ”开始 搜索 的 前 缀 查询 
词 条 的 字符 串 


转 为 小 写 ， 转 为 小 写 ， 


侧 边 N 元 语法 denv 侧 边 N 元 语法 
| Denver | 的 大 小 为 3 到 5 的 大 小 为 3 到 5 下 
匹配 词 条 
文档 源 
索引 的 词 条 搜索 的 的 字符 


词 条 


图 10-10 ”和 侧 边 N 元 语法 相 比 ， 前 缀 查询 需要 匹配 更 多 的 词 条 ， 不 过 索引 量 更 小 


同 模糊 查询 和 NN 元 语法 的 比较 相 类 似 ， 前 级 查询 和 侧 边 N 元 语法 
需要 权衡 灵 演 性 和 农 引 规模 ， 这 里 前 级 方法 更 有 优势 。 而 权衡 查询 的 
延迟 和 CPU 的 使 用 率 ， 侧 边 N 元 语法 则 更 有 优势 。 


2. 通配符 


通配符 碍 询 中 ， 总 是 要 放 入 通配符 号 ， 如 elastic* °. ANAW 
和 前 绥 碍 询 的 功能 相当 ， 也 可 以 使 用 侧 边 N 元 语法 作为 奉 代 。 


如 果 通 配 符 是 在 中 间 ， 如 e*search ， 那 么 没有 在 索引 阶段 的 等 
同方 案 。 你 仍然 可 以 使 用 N 元 语法 来 匹配 字符 e 和 search ， 但 是 如 果 
无 法 控制 通配符 怎样 使 用 ， 那 么 通 配 查 询 是 你 唯一 的 选择 。 


如 果 通 配 符 总 是 在 开头 ， 那 么 通 配 查询 常常 比 结 尾 通 配 的 查询 更 
耗 性 能 。 原 因 是 没有 前 绥 来 提示 在 词 条 字典 的 哪个 部 分 来 查找 相 匹 配 
的 词 9) 。 在 这 种 情况 下 ， 替 换 的 方案 可 以 是 结合 使 用 reverse 分 词 
过 滤器 和 侧 边 N 元 语法 ， 如 第 5 章 所 述 。 替 换 方 案 如 图 10-11 所 示 。 


her 
分 析 器 : 分 析 器 : 
反 向 ， hera 反 向 ， 
侧 边 N 元 语法 hcrae 侧 边 N 元 语法 
| aas | 的 大 小 为 3 到 5 的 大 小 为 3 到 5 
pmen 匹配 词 条 
的 字符 中 
索引 的 词 条 搜索 的 


词 条 


图 10-11 你 可 以 使 用 反 向 和 侧 边 N 元 语法 分 词 过 滤器 来 匹配 后 绥 


3. 词组 查询 和 滑动 窗口 


当 你 需要 考虑 彼此 相 邻 的 单词 时 ， 可 以 使 用 match 查询 ， 将 其 
type 设置 为 phrase ， 如 第 4 章 所 述 。 词 组 查询 比较 慢 ， 因 为 它们 不 
仅 需 要 考虑 多 个 词 条 ， 还 要 考虑 这 些 词 条 在 文档 中 的 位 置 。 


默认 情况 下 ， 所 有 分 析 字 段 的 位 置信 息 是 开启 的 ， 因 为 其 Index_options 设置 为 
positions。 如 果 你 不 想 使 用 词组 查询 ， 而 只 是 词 条 查询 ， 可 以 将 index_options ix 
置 为 freqs 来 关闭 位 置 的 索引 。 如 果 你 根本 不 关心 文档 的 得 分 ， 例 如 索引 应 用 日 志 而 且 总 
是 按照 时 间 惟 来 排序 ， 那 么 也 可 以 将 index_options 设置 为 docs 来 跳 过 词 频 的 索引 。 


词组 得 询 在 勾引 阶段 的 殖 换 方案 是 使 用 消 动 窗 O (shingle) 。 在 
第 5 草 你 看 到 了 请 动 窗 口 和 N 元 语法 相似 ， 但 是 滑动 窗口 是 针对 词 条 级 
别 而 不 是 字符 级 别 。 分 词 为 Introduction，to 和 Elasticsearch 


的 文本 ， 在 滑动 窗口 大 小 为 2 的 情况 下 ， 将 会 产生 “Introduction 


to” 和 “to Elasticsearch” HY i=] & e 


这 样 使 用 的 结果 在 功能 上 和 词组 查询 类 似 ， 而 且 性 能 和 我 们 之 前 
讨论 的 N 元 语法 情况 相似 : 滑动 窗口 将 增加 索引 的 大 小 ， 而 且 通过 较 
慢 的 索引 换取 更 快 的 查询 。 


束 像 通配符 和 NN 元 语法 不 是 对 等 的 那样 ， 这 两 个 方法 也 并 不 是 完 
全 对 等 的 。 对 于 词组 查询 ， 举 个 例子 ， 你 可 以 设置 slop 值 ， 人 允许 词组 
中 间 出 现 其 他 的 单词 。 例 如 ，slop 为 2 时 允许 查询 “buy phone” 匹 配 “buy 
the best phone” 这 样 的 序列 。 这 之 所 以 可 以 奏效 ， 是 因为 在 搜索 的 时 候 
Elasticsearch 知 道 每 个 词 条 的 位 置 ， 但 是 滑动 窗口 要 求 每 个 词 条 都 是 有 
效 购 ， 中 间 不 能 加 入 其 他 非 有 效 的 词 条 。 


滑动 窗口 包含 的 是 单个 词 条 ， 这 一 点 允许 你 更 好 地 将 它们 用 于 复 
合 词 匹配 。 举 个 例子 ， 很 多 用 户 仍 然 使 用 “elastic search” 来 表示 
Elasticsearch。 通 过 滑动 窗口 ， 可 以 使 用 一 个 衬 字 符 串 而 非 默 认 的 空格 
作为 分 隔 符 ， 来 解决 这 个 问题 ， 如 图 10-12 所 示 。 


分 析 器 : 
大 小 为 2 
< 分 隔 符 为 空 字符 串 [eesearen | 
索引 的 查询 
词 条 搜索 的 词 条 的 字符 串 


图 10-12 ”使 用 滑动 窗口 来 匹配 复合 词 


从 我 们 关于 滑动 窗口 、N 元 语法 、 模 糊 和 通 配 查 询 的 讨论 中 ， 可 
以 看 出 通 第 有 多 种 方式 来 搜索 文档 ， 但 是 这 并 不 意味 看 所 有 的 方式 都 
征 等 同 的 。 为 性 能 和 灵活 性 选择 最 佳 方案 ， 在 很 大 程度 上 取决 于 你 的 
用 例 。 下 面 来 深入 探讨 脚本 ， 你 将 发 现 更 多 相同 的 道理 : 达到 同样 结 
果 的 方式 有 很 多 ,但 古 每 种 方法 都 有 目 己 的 优 缺 点 。 


10.4.2 ” 调 优 脚本 ， 要 么 别 用 它 


在 第 3 章 中 ， 我 们 首次 介绍 了 脚本 ， 因 为 它们 可 以 用 于 更 新 。 在 第 
6 章 中 再 次 见 到 它们 ， 并 将 它们 用 于 排序 。 第 7 章 再 次 使 用 脚本 ， 这 次 


征用 脚本 字段 在 搜索 的 时 候 构 建 虚 拟 字 段 。 


通过 脚本 你 获得 了 许多 的 灵活 性 ， 但 是 灵活 性 对 于 性 能 有 着 很 重 
大 的 影响 。 脚 本 的 结果 永远 不 会 被 缓存 ， 因 为 Elasticsearch 无 法 理解 脚 
本 之 内 是 什么 。 可 能 有 一 些 外 部 的 信息 ， 比 如 一 个 随机 数 ， 这 会 使 得 
某 篇 文档 现在 是 匹配 的 ， 但 是 下 一 次 就 不 匹配 了 。Elasticsearch 别 无 选 
择 ， 只 能 针对 相关 的 所 有 文档 运行 同样 的 脚本 。 


使 用 的 时 候 ， 脚 本 常常 是 最 消耗 时 间 和 CPU 资源 的 搜索 了 。 如 果 
你 想 加 速 查 询 ， 好 的 起 点 就 古 笑 试 完全 放弃 脚本 。 如 果 不 可 能 放弃 ， 
通用 的 原则 是 尽 可 能 地 深入 代码 并 优化 性 能 。 


如 何 避 免 脚 本 或 者 是 优化 脚本 呢 ? 答案 主要 取决 于 确切 的 使 用 场 
景 ， 不 过 这 里 我 们 将 试图 渔 兽 一 些 最 佳 实践 。 


1. 避免 脚本 的 使 用 


如 宁 像 第 7 章 那样 使 用 脚本 来 生成 脚本 字段 ， 那 么 你 可 以 在 索引 阶 
段 做 到 这 一 点 。 可 以 在 索引 的 流水 线 里 统计 会 员 的 数量 并 将 其 添加 到 
一 个 新 的 字段 ， 而 不 是 在 索引 的 时 候 什 么 都 不 做 ， 让 脚本 得 看 数组 的 
长 度 来 统计 分 组 会 员 的 数量 。 图 10-13 比 较 了 这 两 种 方法 。 


原 有 的 数据 源 


索引 的 文档 词 条 聚集 
原 有 的 数据 源 索引 的 文档 词 条 聚集 


图 10-13 ”在 脚本 中 统计 会 员 或 在 索引 过 程 中 统计 会 员 
和 N 元 语法 类 似 ， 这 种 方法 在 索引 的 阶段 进行 计算 。 如 果 查 询 延 
迟 的 优先 级 比索 引 吞吐 量 的 优先 级 更 高 的 话 ， 这 个 方式 就 能 奏效 。 


除了 预先 计算 ， 通 党 的 脚本 性 能 优化 规则 是 尽量 重用 Elasticsearch 
现 有 的 功能 。 在 使 用 脚本 之 前 ， 考 虑 一 下 能 使 用 第 6 章 所 讨论 的 功能 得 


分 (function score) 查询 来 满足 你 的 需求 吗 ? 功能 得 分 查询 提供 了 很 
多 操作 得 分 的 方法 。 我 们 认为 你 想 运 行 寻找 “elasticsearch” 活 动 的 查 
询 ， 但 是 你 将 基于 如 下 的 假设 ， 使 用 这 样 的 方式 来 提升 或 降低 得 分 。 


即将 举行 的 活动 更 为 相关 。 将 使 得 活动 得 分 随 着 举行 时 间 的 推 远 
而 呈现 指数 级 下 降 ， 最 多 60 天 。 

参与 者 越 多 的 活动 越 热 门 而 且 越 相关 。 将 根据 参与 人 数 的 增多 而 
线性 地 增加 活动 的 得 分 。 


如 果 在 索引 阶段 计算 了 活动 参与 者 的 数量 (将 字段 命名 为 
， 你 可 以 无 须 使 用 任何 脚本 而 获得 这 两 个 条 
件 。 


"function_score": { 
"functions": [ 


"linear": { 
"date": { 
"origin": "2013-07-25T18:00", 
"scale": "60d" 


} 


"field_value_factor": { 
"Field": "attendees _count" 


2. 本 地 脚本 


如 果 你 想 获得 某 个 脚本 的 最 佳 性 能 ， 使 用 Java 语 言 书 写本 地 脚本 
是 最 好 的 方式 。 这 种 本 地 脚本 可 以 成 为 Elasticsearch 的 插件 ， 可 以 参考 
附录 B 的 完整 指南 ， 它 会 告诉 你 如 何 书 写 。 


本 地 脚本 的 主要 缺点 在 于 ， 它 们 需要 存储 在 每 个 和 点 上 的 
Elasticsearch 类 路 径 中 。 修 改 脚本 束 意 味 着 在 所 有 集群 站 点 上 更 狐 它 


们 ， 并 重 局 节点 。 如 果 不 经 前 修 改 香 询 ， 这 倒 不 会 成 为 问题 。 


为 了 在 查询 中 运行 本 地 脚本 ， 将 lang 设置 为 native ,将 
script 的 内 容 设置 为 脚本 名 称 。 举 个 例 于 ， 如 有 果 你 有 一 个 插件 脚本 
名 为 number0fAttendees ， 它 即时 地 计算 活动 参与 人 数 ， 可 以 像 这 
样 在 stats 聚集 中 使 用 它 : 


"aggregations": { 
"attendees_stats": { 
"stats": { 
"script": "numberOfAttendees", 


"lang": "native" 


3. Lucene 表 达 式 


如 采 你 不 得 不 经 向 修 改 脚 本 ， 或 者 硕 望 在 不 重 局 整个 集群 的 前 提 
下 修改 ， 而 脚本 又 是 在 数值 型 字段 上 运作 ， 那 么 Lucene 表 达 式 可 能 是 
最 好 的 选择 。 


所 谓 Lucene 表 达 式 ， 就 是 查询 的 时 候 在 脚本 中 提供 一 个 JavaScript 
表达 式 ，Elasticsearch 将 其 编译 为 本 地 代码 ， 让 它 和 本 地 脚本 一 样 快 。 
这 种 方法 最 大 的 局 限 性 在 于 只 能 访问 索引 的 数值 型 字段 。 男 外 ， 如 琳 
某 个 文档 缺失 这 个 字段 ， 那 么 其 值 默 认 整 会 取 9 ， 在 某 些 应 用 场景 
可 能 会 导致 结果 的 偏差 。 

为 了 使 用 Lucene 表 达 式 ， 在 脚本 中 要 将 lang 设置 为 


expression。 例 如 ， 你 可 能 已 经 拥有 了 参与 者 的 数量 ， 但 是 你 知道 
通常 只 有 一 半 的 人 会 出 席 ， 所 以 想 根据 这 个 数字 来 进行 统计 。 


"aggs": { 


"expected_attendees": { 


"stats": { 
"script": "doc['attendees_count'].value/2", 
"lang": "expression" 
} 
} 
} 


如 条 必 须 使 用 非 数值 型 或 非 索 引 型 的 字段 ， 而 又 想 能 够 很 容易 地 


修改 脚本 ， 你 可 以 使 用 Groovy 从 版 本 1.4 的 Elasticsearch 开 始 ， 这 
就 是 默认 的 脚本 语言 。 让 我 们 看 看 如 何 优 化 Groovy 肢 本 。 


4. 词 条 统计 


如 果 需 要 调整 分 数 ， 你 可 以 访问 Lucene 级 别 的 词 条 统计 ， 而 无 须 
在 脚本 中 计算 得 分 。 例 如 ， 如 果 只 想 根 据 词 条 在 文档 中 出 现 的 次 数 来 
计算 得 分 。 和 Elasticsearch 默 认 的 方式 不 同 ， 你 并 不 关心 某 篇 文档 中 字 
段 的 长 度 ， 或 者 某 个 词 条 在 其 他 文档 中 出 现 的 次 数 。 为 了 实现 这 一 
点 ， 可 以 设计 一 个 只 使 用 词 频 ( 词 条 在 本 文档 中 出 现 的 次 数 ) 的 脚本 
分 数 ， 如 代码 清单 10-9 所 示 。 


代码 清单 10-9 只 使 用 词 条 频率 的 脚本 分 数 


curl 'localhost:9200/get-together/event/_search?pretty' -d '{ 
"query": { 


"function_score": { 
"filter": { <--- 过 滤 出 在 标题 中 包含 ”elasticsearch “ 词 条 的 所 有 文档 
"term": { 
"title": "elasticsearch" 
} 
}, 


"functions": [ 


"script_score": { =--- 通 过 查看 词 条 在 标题 和 描述 字段 中 的 词 频 ， 来 计 


算 相 关 性 


"script": "_index[\"title\"][\"elasticsearch\"].tf() + 
_index[\"description\"][\"elasticsearch\"].tf()",  <--- 


通过 属于 词 条 的 tf( ) 函 数 ， 访 问 词 条 在 字段 中 的 频率 
"lang": "groovy" 


fea 


5. 访问 字段 数据 


如 果 需 要 在 脚本 中 操作 实际 的 文档 内 容 ， 可 以 选择 使 用 source 
字段 。 例 如 ， 通 过 _source['organizer'] 获取 organizer 的 字 
段 。 


在 第 3 章 中 ， 你 了 解 了 如 何 存储 单个 字段 而 不 是 整个 _source 。 
如 果 单 个 字段 被 存储 ， 也 可 以 访问 被 存储 的 内 容 。 比 如 ， 同 样 的 
organizer 字段 可 以 通过 _ fields['organizer '] 获取 。 


_source 和 _ fields 的 问题 在 于 ， 到 磁 一 上 抓 取 特 定 字 段 的 内 
容 是 很 耗资 源 了 鸭 。 邓 运 的 是 ， 当 Elasticsearch 内 置 的 排序 和 聚集 需要 访 
问 字 段 内 容 时 ， 这 里 的 慢 正 好 体现 了 字段 数据 的 必要 性 。 字 段 数 据 ， 
如 第 6 章 所 述 ， 就 是 为 了 随机 访问 而 进行 的 调 优 ， 所 以 在 脚本 中 使 用 也 
是 非常 好 的 。 即 使 脚本 首次 运行 的 时 候 字 段 数 据 尚 未 被 加 载 ， 它 常常 
ee Al_fields 要 快 上 几 个 数量 级 (或 者 是 文档 值 ， 第 6 章 
有 所 介绍 


为 了 通过 字段 数据 来 访问 organizer ， 你 需要 指向 
doc['organizer']。 举 个 例子 ， 可 以 返回 组 织 者 没有 成 为 其 会 员 
的 分 组 ， 这 样 你 就 可 以 间 间 他 们 : 为 什么 不 参加 自己 的 分 组 呢 ? 


% curl 'localhost:9200/get-together/group/_search?pretty' -d '{ 
"query": { 
"filtered": { 
"filter": { 
"script": { 
"script": "return 
doc.organizer.values.intersect(doc.members.values).isEmpty()", 


在 使 用 doc[ organizer '] 而 非 _source[ 'organizer '] 


(或 _fields ) 的 时 候 ， 有 一 点 需要 注意 : 你 访问 的 是 词 条 ， 而 不 是 
文档 原 有 的 字段 。 如 果 组 织 者 是 'Lee' ， 而 字段 经 过 默认 分 析 器 分 析 
之 后 ， 从 _source 将 得 到 'Lee' ， 而 从 doc 将 得 到 ' lee' 。 到 处 都 
是 需要 权衡 的 地 方 ， 但 是 我 们 假设 阅读 本 章 至 此 你 早已 经 习惯 了 。 


下 面 深入 了 解 一 下 分 布 式 搜索 是 如 何 运作 的 ， 以 及 如 何 使 用 搜索 
类 型 在 精确 得 分 和 低 延 迟 搜索 之 间 找 到 一 个 恨 好 的 平衡 点 。 


10.4.3 ”权衡 网 络 开销 ， 更 少 的 数据 和 更 好 的 分 
布 式 得 分 


回 到 第 2 章 ， 你 可 以 看 到 当 发 送 一 个 搜索 请 求 到 某 个 Elasticsearch 
节点 的 时 候 ， 该 节点 将 请 求 分 发 到 所 有 涉及 的 分 片 ， 并 将 单个 分 片 的 
答复 聚合 为 一 个 最 终 的 答复 ， 并 返回 给 应 用 程序 。 


让 我 们 深入 观察 一 下 这 是 如 何 运作 的 。 最 简单 的 方法 是 从 所 有 涉 
及 分 片 那 里 获得 N 篇 (N 是 size 参数 的 值 ) 文档 Dol ， 将 它们 在 接受 
HTTP 请 求 的 节点 (将 其 称 为 协调 节点 ) 上 排序 ， 挑 选 排名 靠 前 的 N 个 
文档 ， 然 后 返回 给 应 用 程序 。 假 设 你 发 送 的 请 求 使 用 了 默认 为 10 的 
Size ， 而 接受 请 求 的 索引 默认 拥有 5 个 分 片 。 这 意味 着 协调 节点 将 从 
每 个 分 片 那里 获取 10 篇 文档 ， 排 序 这 些 文档 ， 然 后 从 50 篇 文档 中 仅仅 
挑 出 排名 靠 前 的 10 篇 进行 返回 。 但 是 ， 如 果 有 10 个 分 片 ， 取 100 个 结果 
UE? 传送 这 些 文档 的 网 络 开销 ， 以 及 在 协调 节点 上 处 理 文档 的 内 存 开 
BGI AAI, 这 类 似 于 为 聚集 指定 一 个 很 大 的 shard_size ， 对 
性 能 不 利 。 


只 返回 50 篇 文档 的 ID 以 及 用 于 排序 的 元 数据 给 协调 节点 ， 这 样 做 
如 何 ? 排序 后 ， 协 调 市 点 从 分 片 只 要 获取 所 需 的 前 10 篇 文档 。 这 将 减 


少 多 数 情况 下 网 络 的 开销 ， 不 过 会 引发 两 次 网 络 传输 。 


对 于 Elasticsearch 而 言 ， 两 种 选择 都 是 可 以 的 ， 只 需 设 置 搜索 请 求 
中 的 search_type 参数 。 倘 单 的 获取 全 部 相关 文档 的 实现 是 用 
query_and_fetch ， 而 传输 两 次 的 方法 叫 作 query_then_fetch 
， 这 也 是 默认 的 选项 。 两 者 的 对 比 参 见 图 10-14 。 


将 每 个 分 片 的 


结果 合 结果 合并 为 更 
大 的 结果 集 并 大 的 结果 集 并 
节点 接受 nee 节点 接受 soar 
请 求 ~~ / 请 求 ~~” 
从 分 片 只 获取 从 分 片 只 获取 
、 相 关 的 结果 一 相关 的 结果 
\ Fs 
ff 
分 片 2 分 片 2 
将 搜索 请 求 转发 到 分 片 ， 将 搜索 请 求 转发 到 分 片 ， 
请 求 排名 前 10 的 文档 请 求 排名 前 10 的 文档 之 排序 条 件 


图 10-14 ”比较 query_and_fetch 和 query_then_fetch 


如 果 你 要 命中 更 多 的 分 片 ， 使 用 Size 请 求 更 多 的 文档 ， 文 档 变 
得 更 大 ， 那 么 默认 的 query_then_fetch (图 10-14 中 右边 所 示 ) 是 
更 好 的 选择 ， 因 为 它 在 网 络 上 传输 了 更 少 的 数据 。 只 有 当 命 中 一 个 分 
片 时 ，query_and_fetch 才 会 更 快 ， 这 束 是 为 什么 当 搜索 单个 分 
片 、 当 使 用 路 由 、 当 只 需要 数量 (我 们 稍 后 讨论 ;的 时 候 ， 内 部 会 用 
到 它 。 现 在 ， 你 可 以 显示 地 设置 query_and_fetch ， 但 是 到 了 版 本 
2.0， 只 有 针对 特定 的 用 例 才 会 在 内 部 使 用 这 个 方式 。 


1. 分 布 式 得 分 
默认 的 情况 下 ， 分 数 古 在 每 个 分 片上 计算 ， 这 可 能 会 导致 不 够 精 


准 。 举 例 来 说 ， 如 果 你 搜索 一 个 词 条 ， 一 个 因素 是 文档 频率 (DF) ， 
它 展示 了 所 搜索 的 词 条 在 所 有 文档 中 出 现 了 多 少 次 。“ 所 有 的 文档 ”点 


认 是 指 “ 这 个 分 片上 的 所 有 文档 >”。 如 果 不 同 分 片 之 间 某 个 词 条 的 文档 
频率 值 差 距 显 著 ， 得 分 可 能 束 无 法 反映 真实 的 情况 。 请 参考 图 10- 
15, RESCH 1 中 出 现 “elasticsearch” 的 次 数 更 多 ， 但 是 由 于 分 片 2 中 
出 现 该 词 的 文档 数量 较 少 ， 最 后 导致 文档 2 的 得 分 比 文档 1 高 。 

你 可 以 假想 ， 有 了 足够 多 的 文档 ， 文 档 频 率 值 会 在 多 个 分 片上 上 自 
然 地 均衡 ， 而 且 默 认 的 行为 也 能 很 好 地 运作 。 但 是 ， 如 果 分 数 的 准确 
性 是 高 优先 级 的 ， 或 者 文档 频率 对 于 你 的 应 用 而 言 还 是 不 均衡 的 〈 比 
如 ， 使 用 了 定制 路 由 ) ， 那 么 你 将 需要 男 一 种 不 同 的 方法 。 


文档 1: 
“elasticsearch” 的 词 频 为 2 


文档 2: 
“elasticsearch” 的 词 频 为 
TF/IDF 的 权重 为 2/10=0.2 


TF/IDF 的 权重 为 1/2=0.5 


了 y 


Ay Hr 1: “elasticsearch” fy SC PY A10 分 片 2:“elasticsearch” 的 文档 频率 为 2 


图 10-15 ”分 布 不 均 的 文档 频率 可 能 导致 不 准确 的 排名 


这 种 方法 将 搜索 类 型 从 query_then_fetch 改 为 
dfs_query_then_fetch。 这 个 dfs 的 部 分 将 告诉 协调 节点 回 分 乒 
发 送 一 次 额外 的 请 求 ， 来 收集 被 搜 词 条 的 文档 频率 。 如 图 10-16 所 示 ， 
聚集 的 频率 将 被 用 于 计算 分 数 并 正确 地 将 文 要 1 和 文档 2 进行 排序 。 


elasticsearch 的 
总 文档 频率 是 12 


y. AA Y 了 


文档 1: 
“elasticsearch 的 词 频 为 2 


文档 2: 
“elasticsearch” 的 词 频 为 1 
TF/IDF 的 权重 为 2/12=0.17 


TF/IDF 的 权重 为 1/12=0.8 


分 片 1:“elasticsearch” 的 文档 频率 为 10 | 分 片 2:“elasticsearch” 的 文档 频率 为 2 


图 10-16 dfs 的 搜索 类 型 使 用 了 额外 的 网 络 请 求 来 计算 全 局 的 文档 频率 ， 并 将 其 用 于 文档 评分 


你 可 能 已 经 发 现 由 于 额外 的 网 络 请 求 ，DFS 的 查询 会 更 慢 。 所 以 
在 切换 之 前 ， 请 确保 你 真 的 是 获得 了 更 好 的 评分 。 如 果 有 一 个 低 延 时 
的 网 络 ， 这 种 开销 可 以 忽略 不 计 。 另 一 方面 ， 如 有 果 网 络 不 是 足够 快 ， 
或 者 查询 的 并 发 很 高 ， 你 可 能 会 遇见 很 明显 的 额外 人 负荷 。 


2. 只 返回 数量 


如 有 果 你 根本 就 不 天 心得 分 ， 而 且 也 不 需要 文档 的 内 容 ， 那 义 该 如 
何 呢 ? 例如 ， 只 需要 文档 的 数量 或 者 聚集 。 这 种 情况 下 ， 推 存 的 搜索 
类 型 是 count 。 这 里 count 询问 涉及 分 片 的 内 容 只 有 匹配 文档 的 数 
量 ， 然 后 计数 将 这 些 数字 求 和 。 


Pa TH 
R] 


在 版 本 2.0 中 ， 在 查询 中 加 入 size=0 将 自动 采用 和 search_type=count 同样 的 逻 
辑 ， 而 且 search_type=count 将 被 弃 用 。 


10.4.4 ”权衡 内 存 ， 进 行 深度 分 页 


在 第 4 章 中 ， 你 学 习 了 使 用 size 和 from 参数 对 查询 结果 进行 分 
° 举 个 例子 ， 为 了 在 get-together 活 动 中 搜索 “elasticsearch”"， 并 获取 


页 
每 页 100 个 结果 的 第 5 页 ， 你 需要 运行 类 似 如 下 的 请 求 。 


% curl 'localhost:9200/get-together/event/_search?pretty' - 
"query": { 
"match": { 
"title": "elasticsearch" 


"From": 400, 
"size": 100 


这 实际 上 获取 了 前 500 个 结果 ， 对 它们 排序 ， 然 后 只 返回 最 后 的 
100 个 。 可 以 想象 ， 随 着 分 页 的 深入 ， 这 样 操作 有 多 么 的 低 效 。 例 如 ， 


ARMED SR, FPR S| Seba Se, AERA Ls 
人 而 其 实 做 了 这 么 多 只 是 为 了 返回 最 后 一 页 


对 于 这 种 情形 ， 你 可 以 使 用 scan 的 搜索 类 型 来 遍历 所 有 的 get- 
together 分 组 ， 如 代码 清单 10-10 所 示 。 初 始 的 答复 只 返回 了 滚动 ID 
(scrollid) ， 它 唯一 标示 了 这 个 请 求 并 会 记 住 哪些 页 面 已 经 被 返回 。 
在 开始 获取 结果 之 时 ， 发 生 一 个 包含 滚动 ID 的 请 求 。 重 复 同 样 的 请 求 
来 获取 下 一 页 的 内 容 ， 直 到 你 有 了 足够 的 数据 或 者 没有 更 多 的 命中 返 
回 ， 无 论 哪 种 情况 ，hits 数组 都 是 空 的 。 


代码 清单 10-10 使 


扫描 (scan) 的 搜索 类 型 


aL 


curl "localhost: 9200/get -together/event/_search? 


pretty&q=elasticsearch\ 
&search_type=scan 


\ 
&scroll=im 


\ «---Elasticsearch 将 为 下 一 个 请 求 等 待 1 分 钟 (如 下 ) 
&S1ze=100 


" ~- - -每 页 的 大 小 (结果 数量 ) 
# reply 
{ 


"~scroll_id": 


"Cc2Nhbjsx0zk20jdZdkdQOTJLUINpNGpxRWh4SORWUVE7MT tOb3RhbF90aXxRZ0jc7" 
， ”一 -- -你 获得 了 一 个 深 动 TD， 你 会 在 下 一 个 请 求 中 使 用 它 
| 
"hits": { 
"total": 7， <--- 你 还 没有 收 到 任何 结 9 
"max_score": 0, 
"hits": [] 


pa 


[...] 
curl 'localhost:9200/_search/scroll?scroll=1m 
&pretty' -d 
"c2Nhbjsx0zk20jdZdkdQOT JLUINpNGpxRWh4SORWUVE7MT tOb3RhbF90aXRzZO0jc7' 


=--- 使 用 之 前 获得 的 滚动 Id 抓 取 第 一 页 的 结果 为 下 一 个 请 求 指定 超时 的 时 长 
# reply 
{ 


"~scroll_id" : "c2NhbjswOzE7dG90YWxfaGlOczo30w==", 


[...] ~--- 你 获得 了 另 一 个 滚动 TD， 可 用 于 下 一 个 请 求 


"hits" : { 
"total" : 7, 
"max_score" : 0.0, 
"hits" : [ { 
"index" : "get-together", =--- 这 次 你 获得 了 1 页 的 结果 


Posed 


curl 'localhost:9200/_search/scroll?scroll=im 


&pretty' -d 
'C2Nhbj swOzE7dG90YWxfaGlOczo30w==' =---- 使 用 上 一 次 的 滚动 ID 持续 地 获 


取 页 面 ， 直 到 命中 的 数组 再 次 为 空 


和 其 他 搜索 一 样 ， 扫 描 查 询 接 受 size 的 参数 来 控制 每 页 的 结 采 
数量 。 不 过 这 一 次 ， 页 面 的 大 小 是 按照 每 个 分 片 来 计算 的 ， 所 以 实际 
返回 的 数量 将 是 size 的 值 乘 以 分 片 的 数量 。 请 求 的 scrol11 参数 中 给 
出 的 超时 会 在 你 每 次 获取 新 页 面 时 被 刷新 ， 这 就 是 为 什么 每 个 新 的 请 
求 中 你 可 以 设置 不 同 的 超时 。 


RH 


以 确保 它 在 处 理 一 个 滚动 的 时 
使 用 ， 它 就 浪费 了 资源 ， 消 
SE], 这 些 都 无 法 通过 


设置 一 个 较 长 的 超时 可 能 是 很 诱 人 的 ， 因 为 这 样 就 
会 超时 。 问 题 在 于 ， 如 有 果 某 个 深 动 是 活跃 的 但 是 没有 
一 些 JVM 的 堆 内 存 来 沁 住 当前 的 页 面 以 及 Lucene 分 段 占用 的 磁盘 


并 来 删除 ， 除 非 滚动 结束 或 者 过 期 。 


TE 


Pi 


scan 的 搜索 类 型 总 是 按照 结果 在 索引 中 被 发 现 的 顺序 来 返回 它 
们 ， 而 忽略 了 排序 的 条 件 。 如 果 同 时 需要 深度 分 页 和 排序 ， 你 可 以 为 
普通 的 搜索 请 求 增加 scro11 参数 。 癌 深 动 人 DD 发 送 G6ET 请 求 ， 将 获得 
下 一 页 的 结果 。 这 次 ，size 参数 可 以 精准 的 工作 ， 而 忽视 分 片 的 数 


量 。 第 一 个 请 求 中 你 也 将 获得 第 一 页 的 结果 ， 这 和 普通 搜索 一 样 。 


% curl 'localhost:9200/get-together/event/_search? 
pretty&scroll=im' 


-d ' { 
"query": { 
"match": { 
"title": "elasticsearch" 
} 
} 


7 
从 性 能 的 角度 而 言 ， 将 scrol1 加 入 普通 的 搜索 比 使 用 scan 的 搜 
索 类 型 更 耗资 源 ， 原 因 是 当 结 果 被 排序 的 时 候 ， 需 要 在 内 存 中 保留 更 
多 的 信息 。 也 就 古 说 ， 深 度 分 页 比 默认 的 搜索 更 高 效 ， 因 为 
Elasticsearch 没 有 必要 为 当前 页 而 排列 所 有 之 前 的 页 面 。 


只 有 当 你 事先 知道 需要 深度 分 页 时 ， 深 动 才 是 有 用 的 。 当 只 需要 
少数 儿 页 结果 的 时 候 ， 我 们 并 不 推荐 滚动 操作 。 和 本 章 其 他 内 容 一 
样 ， 每 次 性 能 的 提升 都 需要 你 付出 一 些 代价 。 在 深 动 的 例子 中 ， 代 价 
ee 内 容 中 保留 当前 搜索 的 信息 直到 滚动 过 期 或 者 没有 更 多 的 命 


[9] “字典 一 般 都 是 由 Trie 算 法 的 前 绥 树 构建 而 成 。 一 一 译 者 注 
[10] ”每 个 分 乒 都 获取 N 篇 文档 。 一 一 译 者 注 


10.5 ”小结 


本 章 探 讨 了 一 系列 的 优化 ， 来 增加 集群 的 处 理 能 力 和 啊 应 速度 。 


。 使 用 bulk 批 量 API 接 口 将 多 个 ijndex、create ` update 或 者 
delete 操作 合并 到 同一 个 请 求 。 

。 为 了 组 合 多 个 get 或 多 个 search 请 求 ， 你 分 别 可 以 使 用 多 条 获 
取 或 多 条 搜索 的 API © 

。 当 索引 缓冲 区 已 满 、 事 物 日 志 过 大 或 上 次 冲刷 过 去 太 久 的 时 候 ， 
冲刷 的 操作 将 内 存 中 的 Lucene 分 段 提交 到 磁盘 。 

。 刷新 使 得 新 的 分 段 ， 无 论 是 否 冲刷 ， 都 可 以 用 于 搜索 。 在 索引 操 
作 密 集 的 时 候 ， 最 好 降低 刷新 的 频率 或 者 干脆 关闭 刷新 。 

。 合并 的 策略 可 以 根据 分 段 的 多 少 来 调 优 。 较 少 的 分 段 使 得 搜索 更 
快 ， 不 过 合并 需要 花费 更 多 的 CPU 时 间 。 较 多 的 分 段 使 得 合并 时 
间 更 少 、 索 引 更 快 ， 但 是 会 导致 搜索 变 慢 。 

。 优化 的 操作 会 强制 合并 ， 对 于 处 理 很 多 搜索 请 求 的 静态 索引 ， 这 
可 以 很 好 的 运作 。 


。 存储 限 流 可 能 会 使 合并 落后 于 更 新 ， 限 制 了 索引 的 性 能 。 如 采 你 
的 高 速 的 VO， 放宽 或 者 取消 这 个 限制 。 

组 合 使 用 在 bool1 过 滤 中 的 位 集合 过 滤 右 和 and/or/not 过 滤 中 
WIERA TIEAN ° 

如 用 你 的 索 引 是 静态 不 变 的 ， 在 分 片 查询 缓存 中 缓存 数量 和 聚 
监控 JVM 扒 的 使 用 情况 ， 预 留 足够 的 内 存 空间 ， 这 样 吏 不 会 遇 到 
频繁 的 垃圾 回收 或 者 out-of-memory 错 误 ， 但 是 同时 也 要 给 操作 系 
统 的 缓存 留 出 一 些 内 存 。 

如 有 果 首 次 查询 太 慢 ， 而 且 你 也 不 介意 较 慢 的 索引 过 程 ， 请 使 用 索 


如 果 有 足够 的 空间 存储 较 大 的 索引 ， 请 使 用 N 元 语法 和 滑动 窗口 
而 不 是 模糊 、 通 配 或 词组 查询 ， 这 会 使 你 的 搜索 运行 得 更 快 。 
在 索引 之 前 ， 使 用 所 需 的 数据 在 文档 中 创建 新 的 字段 ， 这 样 通常 
可 以 避免 使 用 脚本 。 

ne 在 脚本 中 党 试 使 用 Lucene 表 达 式 、 词 条 统计 和 字段 
数据 。 

如 果 脚 本 不 会 经 常 变 化 ， 请 参考 附录 B， 学 习 如 何在 Elasticsearch 
插件 中 书写 一 个 本 地 脚本 。 

如 果 在 多 个 分 片 之 中 没有 均衡 的 文档 频率 ， 使 用 
dfs_query_then_fetch 。 

如 果 不 需 要 任何 命中 的 文档 ， 请 使 用 count 搜索 类 型 。 如 果 需 要 
很 多 命中 的 文档 ， 请 使 用 scan 搜索 类 型 。 


第 11 章 ”管理 集群 


本 章 主要 内 容 


。 改善 默认 的 配置 

。 使 用 模板 创建 默认 的 索引 设置 
。 监控 性 能 

。 使 用 备份 和 恢复 


本 书 已 经 涵盖 了 很 多 的 内 容 ， 我 们 希望 用 户 现在 能 和 目 如 运用 
Elasticsearch API 的 众多 接口 。 在 本 章 中 ， 你 将 增强 已 经 学 到 的 API 接 
口 ， 使 用 它们 来 监控 并 调 优 Elasticsearch 集 群 ， 增 强 集 群 的 性 能 并 实现 
灾难 恢复 。 


对 于 开发 者 和 管理 员 ， 最 终 都 将 面临 监控 和 管理 Elasticsearch 集 群 
的 问题 。 无 论 你 的 系统 使 用 压力 是 偏 高 还 是 适中 ， 理 解 并 识别 瓶 贷 、 
为 硬件 或 系统 失败 的 突 发 事件 做 好 准备 ， 都 是 非常 重要 的 。 


Ahi SE ARREST API 接 口 的 Elasticsearch 集 群 管理 操作 。 本 书 
一 直 在 介绍 REST API 接 口 ， 现 在 你 应 该 对 其 并 不 陌生 了 。 这 些 让 你 可 
以 使 用 实时 性 的 监控 和 最 佳 实 践 ， 确 定 并 解决 可 能 的 性 能 瓶 绒 。 


为 了 实现 这 个 目标 ， 我 们 将 谈论 3 个 主要 的 课题 : 改善 默认 配置 、 
监控 问题 以 及 有 效 地 使 用 备份 系统 。 关 注 这 些 的 前 提 假 设 是 ， 有 效 的 
性 能 监控 对 于 系统 优化 是 非常 有 必要 的 ， 理 解 你 的 系统 也 有 助 于 灾难 
情况 下 的 应 急 计划 。 


11.1 ”改善 默认 的 配置 


尽管 开 箱 即 用 的 Elasticsearch 配 置 会 满足 多 数 用 户 的 需求 ， 我 们 要 
注意 到 Elasticsearch 是 高 度 灵 活 的 系统 ， 可 以 在 其 默认 设置 基础 上 进行 
调 优 以 增加 性 能 。 


在 生产 环境 Elasticsearch 的 很 多 使 用 属于 偶尔 的 全 文 搜索 范畴 ， 但 
是 逐步 增长 的 部 署 迫 使 不 太 使 用 的 场景 变 成 更 普 遇 的 安装 ， 例 如 这 些 
渐渐 流行 的 趋势 : 将 Elasticsearch 作 为 单独 的 数据 源 、 日 志 聚 集 器 ， 甚 
至 将 其 用 在 混合 存储 架构 中 ， 和 其 他 类 型 数据 库 联合 使 用 。 这 些 令 人 
兴奋 的 新 用 法 让 我 们 有 机 会 探索 有 趣 的 方式 ， 来 调整 并 优化 
Elasticsearch 的 默认 设置 。 


11.1.1 索引 模板 


一 旦 初始 的 设计 规划 完成 后 ， 在 Elasticsearch 中 创建 新 的 索引 和 相 
关联 的 映射 ， 通 常 是 一 项 很 简单 的 任务 。 但 是 ， 某 些 场 景 下 ， 待 创建 
的 索引 和 之 前 的 索引 一 定 有 相同 的 设置 和 映射 。 这 些 场景 包括 : 


。 日志 聚集 在 这 种 情况 下 ， 为 了 实现 有 效 的 查询 和 存储 ， 每 日 
的 日 志 索 引 是 必 不 可 少 的 ， 它 们 轮流 添加 日 志文 件 。 在 基于 云 的 
部 署 中 这 是 常见 的 例子 ， 其 中 分 布 式 系 统 将 它们 的 日 志 推 送 到 集 
中 式 的 Elasticsearch 人 集群。 配置 集群 ， 处 理 上 自动 的 每 日 日 志 数 据 模 
板 ， 将 有 助 于 组 织 数 据 和 人 简化 大 海 捞 针 式 的 搜索 。 

遵守 法 规 这 里 所 说 的 是 ， 在 一 定 的 时 间 之 后 ， 数 据 块 必须 被 
保留 或 者 删除 ， 以 遵守 法 规 标 准 ， 就 像 财 政 部 门 公司 必须 遵守 了 萨 
班 斯 一 奥克斯 利 法 案 (Sarbanes-Oxley) 。 这 种 强制 命令 要 求 保 留 
组 织 民 好 的 记录 ， 这 里 模板 系统 能 大 放 异 彩 。 

~ 一 ”动态 创建 新 租户 的 系统 ， 经 名 需要 划分 不 同 租户 的 数 


当 同 类 的 数据 存储 需要 已 被 验证 和 可 重复 的 模式 ， 模 板 束 有 它们 
自己 的 用 武之 地 了 。Elasticsearch 运 用 模板 的 自动 化 本 质 也 是 一 个 非常 
吸引 人 的 特性 。 


1. 创建 一 个 模板 


正如 其 名 ， 索 引 模 板 将 会 用 于 任何 新 创建 的 索引 。 和 预定 义 名 称 
模式 相 匹 配 的 索引 将 遵循 一 个 模板 ， 以 确保 所 有 匹配 索引 的 设置 一 
致 。 索 引 创建 的 事件 必须 和 模板 的 模式 相 匹配 。 在 Elasticsearch 中 ， 将 
索引 模板 运用 于 新 建 的 索引 有 两 种 方式 。 


通过 REST API 的 方式 。 
通过 配置 文件 的 方式 。 


前 者 假设 集群 正在 运行 中 ， 后 者 并 无 这 样 的 假设 ， 而 且 经 常用 于 
a eras 被 开发 运 维 工 程 师 或 系统 管理 员 在 生产 环境 中 所 使 


这 个 章节 将 展示 一 个 用 于 日 志 育 集 的 简单 索引 模板 ， 这 样 你 的 日 
志 聚 集 工具 每 天 都 会 生成 一 个 新 的 索引 。 在 撰写 本 书 的 时 候 ，Logstash 
是 和 Elasticsearch 一 起 使 用 的 最 主流 日 志 限 集 工 具 ， 它 们 之 间 的 集成 是 
无 颖 的 ， 所 以 聚焦 Logstash 和 Elasticsearch 的 索引 模板 创建 是 最 有 意义 
的 。 


默认 情况 下 ，Logstash 将 每 天 的 时 间 惟 附加 在 索引 名 称 的 后 面 ， 来 
调用 API 请 求 。 例 如 ，logstash-11-09-2014。 假 设 正 在 使 用 Elasticsearch 
的 默认 配置 ， 它 允许 自动 化 的 索引 创建 。 一 旦 Logstash 使 用 了 新 的 事件 
请 求 了 你 的 集群 ， 系 统 就 会 建立 一 个 名 为 logstash-11-09-2014 的 新 索 
引 ， 而 且 目 动 映 射 文档 的 类 型 。 首 移 要 使 用 REST API 接 口 ， 如 下 所 
不 。 


curl -XPUT localhost:9200/_template/logging_index -d '{ <~---PUT 命 
& 
"template" : "logstash-*", ~--- 对 于 名 称 和 这 个 模式 匹配 的 索引 ， 运 用 该 
模板 
"settings" : { 
"number_of_shards" : 2, 
"number_of_replicas" : 1 


} 


"mappings" : {.. }, 
"aliases" : { "november" : 


y 


使 用 PUT 命令 之 后 ， 你 告诉 Elasticsearch 当 一 个 索引 的 名 称 和 
logstash-* 模式 匹配 时 ， 运 用 这 个 模板 。 在 这 个 例子 中 ， 当 
Logstash 问 Elasticsearch 发 送 一 个 新 的 事件 ， 而 指定 的 索引 并 不 存在 ， 
系统 束 会 使 用 模板 创建 一 个 新 的 索引 。 


这 个 模板 更 进一步 地 设置 了 别名 ， 这 样 可 以 聚合 茶 个 指定 月 份 内 
的 全 部 索引 。 你 必须 手动 地 为 每 个 月 的 索引 重新 命名 ， 但 是 别名 提供 
了 一 个 便捷 的 方法 来 按 月 合并 日 志 事 件 的 索引 。 


2. 在 文件 系统 中 配置 模板 


你 还 可 以 选择 在 文件 系统 中 配置 模板 ， 有 时 这 使 得 模板 更 容易 管 
理 和 维护 。 配 置 文件 必须 遵循 这 些 基 本 的 规则 。 


。 模板 配置 必须 是 JSON 格 式 。 方 便 起 见 ， 让 文件 名 以 .json 扩 展 名 结 
EB: <FILENAME>.json ° 

。 模板 定义 应 该 位 于 Elasticsearch 配 置 所 在 的 地 方 ， 位 于 一 个 模板 目 
录 下 。 该 路 径 在 集群 配置 文件 (elasticsearch.yml) 中 被 定义 为 
path.conf, 如 <ES_HOME>/config/templates/ * 。 

。 模板 定义 应 该 放 在 有 资格 成 为 主 点 的 和 点 之 上 。 


A 使 用 之 前 的 模板 定义 ， 你 的 template.json 文 件 应 该 看 上 去 是 这 样 


"template" : "logstash-*", 

"settings" : { 
"number_of_shards" : 2, 
"number_of_replicas" : 1 


} 


"mappings" : { ... }, 
"aliases" : { "november" : {} } 


} 


和 通过 REST API 进 行 的 定义 相 类 似 ， 现 在 每 个 与 logstash-* 模 
式 匹 配 的 索引 ， 都 会 使 用 这 个 模板 。 


3. 多 个 模板 的 合并 


Elasticsearch 还 允许 用 户 使 用 不 同 的 设置 来 配置 多 个 模板 。 这 样 就 
可 以 扩展 之 前 的 例子 ， 配 置 一 个 模板 来 按 月 处 理 日 志 事 件 ， 然 后 配置 
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代码 清单 11-1 配置 多 个 模板 


curl -XPUT localhost:9200/_template/logging index_all -d '{ 
"template" : "logstash-09-*", 。--- 将 这 个 模板 应 用 到 任 
何 “logstash-969-” 开 头 的 索引 
"order" : 1， =--- 更 高 顺序 编号 的 设置 将 覆盖 较 低 顺序 编号 的 设置 
"settings" : { 
"number_of_shards" : 2, 
"number_of_replicas" : 1 


ty 
"mappings" : { 
"date" : { "store": false } 


ty 
Ņ' 


"alias" : { "november" : {} } 


curl -XPUT http://localhost:9200/_template/logging_index -d '{ 
"template" : "logstash-*", =--- 将 这 个 模板 应 用 到 任 
何 “logstash-” 开 头 的 索引 ， 并 存储 日 期 字段 
"order" : 0, 
"settings" : { 
"number_of_shards" : 2, 
"number_of_replicas" : 1 


ty 
"mappings" : { 
"date" : { "store": true } 


在 前 面 的 例子 中 ， 最 高 优先 级 的 模板 负责 11 月 的 日 志 ， 因 为 它 匹 
配 了 索引 名 以 "1ogstash-09-" 开头 的 模式 。 第 二 个 模板 扮演 了 包容 
人 
HIT o 


这 个 配置 中 需要 注意 的 事情 是 order 属性 。 这 个 属性 意味 着 最 低 
的 顺序 编号 首先 生效 ， 而 更 高 的 顺序 编号 会 覆盖 较 低 编号 的 设置 。 由 
于 这 一 点 ， 这 两 个 模板 设置 将 会 合并 ， 其 结 采 就 是 所 有 11 月 的 日 志 
件 没有 存储 日 期 字段 。 


4. 检索 索引 模板 
为 了 检索 全 部 模板 的 清单 ， 你 可 以 使 用 这 个 便捷 的 API: 


curl -XGET localhost:9200/_template/ 


相似 地 ， 可 以 使 用 名 字 来 检索 单个 或 多 个 模板 ; 


curl -XGET localhost:9200/_template/logging_index 


curl -XGET 
localhost :9200/_template/logging_index_1, logging_index_2 


或 者 可 以 检索 匹配 某 个 模式 的 全 部 模板 : 


curl -XGET localhost:9200/_template/logging_* 


5. 删除 索引 模板 


使 用 模板 的 名 称 ， 可 以 删除 索引 模板 。 在 之 前 的 部 分 ， 我 们 像 这 
样 定 义 了 一 个 模板 : 


curl -XPUT 'localhost:9200/_template/logging_index' -d 'f{...}' 


为 了 删除 这 个 模板 ， 在 下 面 这 个 请 求 中 使 用 模板 名 称 : 


curl -XDELETE 'localhost:9200/_template/logging_index' 


11.1.2 ”默认 的 映射 


如 第 2 章 所 学 ， 映 射 让 你 可 以 定义 具体 的 字段 、 它 们 的 类 型 甚至 是 
Elasticsearch 如 何 解 释 并 存储 它们 。 在 第 3 章 ， 你 进一步 学 习 了 
Elasticsearch 是 如 何 文 持 动态 映射 的 ， 无 须 在 索引 创建 的 时 候 定 义 映 
射 ， 而 是 根据 索引 的 初始 文档 之 内 容 来 动态 地 生成 映射 。 本 章 了 ， 束 
像 之 前 的 默认 索引 模板 那样 ， 将 会 介绍 默认 映射 的 概念 ， 这 对 于 重复 
性 的 映射 创建 而 言 是 非常 方便 的 工具 。 


我 们 刚刚 展示 了 索引 模板 是 如 何 用 于 节省 时 间 和 增加 相似 数据 类 
型 的 统一 性 。 默 认 的 映射 有 同样 的 好 处 ， 映 射 类 型 模板 可 以 认为 和 索 
引 模 板 一 脉 相 承 。 当 多 个 索引 有 类 似 的 字段 时 ， 我 们 会 经 党 使 用 默认 

X o 
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考虑 下 面 的 例子 ， 其 中 你 想 指定 一 个 默认 的 设置 ， 配 置 如 何 为 所 有 的 映射 存储 


_source ， 除 了 一 个 person 类 型 。 


curl -XPUT 'localhost:9200/streamglue/_mapping/events' -d ' { 
"Person" : 


"source" : {"enabled" : false} 


"_default_" : 
"source" : {"enabled" : true } 


在 这 个 例子 中 ， 所 有 新 的 映射 将 默认 存储 文档 的 _source ， 但 是 类 型 person 的 任何 
映射 默认 地 都 不 会 存储 _source。 请 注意 ， 你 可 以 在 单独 的 映射 配置 中 覆盖 这 个 行为 。 


1. 动态 映射 


默认 地 ，Elasticsearch 利 用 了 动态 映射 (dynamic mapping) : 也 
瓯 是 为 文档 的 新 字段 确定 数据 类 型 的 能 力 。 你 初次 索引 一 篇 文档 的 时 
候 可 能 已 经 体验 了 这 一 点 ， 而 且 可 能 已 经 注意 到 了 Elasticsearch 动 态 地 
创建 了 一 个 映射 以 及 每 个 字段 的 数据 类 型 。 用 户 可 以 告知 Elasticsearch 
忽视 新 的 字段 或 者 对 于 未 知 字段 抛 出 异常 来 改变 这 一 行为 。 通 常 你 希 
望 限制 新 字段 的 加 入 ， 以 避免 数据 的 污染 并 维持 现 有 的 数据 模式 定 
X. o 


请 注意 ， 可 以 在 elasticsearch.yml 配 置 中 将 index.mapper .dynamic 设置 为 false , 


来 关闭 新 映射 的 动态 创建 。 


代码 清单 11-2 展 示 了 如 何 添加 一 个 动态 映射 。 
代码 清单 11-2 ”添加 一 个 动态 映射 


curl -XPUT 'localhost:9200/first_index' -d 
1 


"mappings": { 
"person": { 
"dynamic": "strict", =-- -如果 在 索引 的 时 候 碰 到 一 个 未 知 的 字 
段 ， 抛 出 一 个 异 各 
"properties": { 
"email": { "type": "string"}, 
“created_date": { "type": "date" } 


curl -XPUT 'localhost:9200/second_index' -d 
1 


"mappings": { 
"person": { 
“dynamic”; "true", 一- - -允许 新 字段 的 动态 创建 
"properties": { 
"email" g { "type" : "string"}, 
“created_date": { "type": "date" } 


|j 


第 一 个 映射 限制 了 在 person 映射 中 创建 新 的 字段 。 如 果 你 试图 
使 用 未 映射 的 字段 来 插入 文档 ，Elasticsearch 将 返回 异常 ， 而 且 不 会 索 
引 这 篇 文档 。 例 如 ， 试 图 索引 有 额外 first_name 字段 的 文档 : 


curl -XPOST 'localhost:9200/first_index/person' -d 
1 


"email": "foo@bar.com", 
"created_date" : "2014-09-01", 
"first_name" : "Bob" 

T 


} 


error: "StrictDynamicMappingException[mapping set to strict, 
dynamic 

introduction of [first_name] within [person] is not allowed]" 
status: 400 
} 


2. 动态 映射 和 模板 一 起 使 用 


如 采 我 们 不 讨论 动态 映射 和 动态 模板 是 如 何 一 起 工作 的 ， 那 么 这 
个 部 分 吉 不 会 完整 。 它 们 一 起 可 以 让 你 根据 字段 的 名 称 或 者 数据 类 型 
来 运用 不 同 的 映射 。 


之 前 探讨 了 为 了 统一 的 一 组 索引 和 有 映 映 ， 如 何 使 用 索引 模板 来 目 
ieee gt 。 现 在 可 以 将 这 个 想法 进行 扩展 ， 融 合 我 们 谈论 的 
JARE © 


在 处 理 包 含 UUID 的 数据 时 ， 下 面 的 例子 解决 了 一 个 简单 的 问题 。 
有 一 些 包含 连 字 符 的 唯一 字符 数字 串 ， 如 "b20d5470-d7b4-11e3- 
9fa6-25476c6788ce" 。 用 户 不 想 Elasticsearch 分 析 这 些 字 符 串 ， 否 
则 构建 索引 分 词 的 时 候 ， 默 认 的 分 析 器 会 将 UUID 按 照 连 字符 进行 切 
分 。 用 户 希 望 的 是 根据 完整 的 UUID 字 符 串 来 搜索 ， 所 以 要 让 


Elasticsearch 将 整个 字符 串 作 为 单一 的 分 词 来 存储 。 这 种 情况 下 ， 需 要 
告诉 Elasticsearch 不 要 分 析 任 何 名 字 以 "_guid'" 结尾 的 string FE ° 


curl -XPUT 'http://localhost:9200/myindex' -d ' 


"mappings" : { 
"my_type" ， { 
"dynamic_templates" : [{ 
"UUID" : { 
"match" : "*_guid", =-- -匹配 名 称 以 _ A pelea cls i 
"match_mapping_type" : "string", -匹配 的 字段 必须 为 字 


"mapping" : { eee. 你 想 应 用 的 映射 


"type" : "String", o 
"index" : inot analyzed’ - -索引 的 时 候 ， 不 : 


在 这 个 例子 中 ， 动 态 的 模板 用 于 动态 地 映射 匹配 特定 名 字 和 类 型 
的 字段 ， 让 用 户 有 更 多 的 自主 权 来 控制 数据 如 何 存储 ， 并 让 其 可 以 被 
Elasticsearch 搜 索 到 。 另 外 需要 注意 的 是 ， 可 以 使 用 path_match 或 者 
path unina teh 关键 词 ， 允许 用 户 匹配 或 者 不 匹配 使 用 点 号 的 动态 村 
板 。 例 如 ， 想 匹配 person .* ,email 这 样 的 内 容 。 使 用 这 种 逻辑 ， 可 
以 看 到 这 文 样 的 数据 结构 EB 够 匹配 得 上 : 


"person" : { 
"user" : 
"email": { "bob@domain.com" 


动态 模板 是 一 个 快捷 的 方法 ， 将 某 些 乏味 的 Elasticsearch 管 理 进 行 
了 和 目 动 化 。 下 面 来 探索 分 配 的 感知 。 


11.2 分 配 的 感知 


这 个 部 分 泗 盖 了 规划 集群 拓扑 结构 以 减少 中 心 点 失败 的 概念 ， 以 
及 使 用 分 配 感知 的 概念 来 提升 性 能 。 分 配 感 知 (allocation awareness) 
是 和 哪里 放置 数据 副本 相关 的 知识 。 你 可 以 使 用 这 些 知 识 武 装 
Elasticsearch， 这 样 它 可 以 智能 地 在 集群 中 分 发 数据 副本 。 


11.2.1 ”基于 分 片 的 分 配 


分 配 感知 允许 用 户 使 用 自 定义 的 参数 来 配置 分 片 的 分 配 。 这 是 在 
Elasticsearch 部 署 中 很 常见 的 一 种 最 佳 实践 ， 因 为 它 通过 确保 数据 在 网 
络 拓扑 中 均匀 分 布 ， 来 减少 单 点 故障 的 概率 。 由 于 部 署 在 同一 个 物理 
机 架 上 的 和 点 可 能 拥有 相 邻 的 优势 ， 无 须 网 络 传输 ， 所 以 用 户 也 可 以 
体验 更 快 的 读 探 作 。 


通过 定义 一 组 健 ， 然 后 在 合适 的 记 点 上 设置 这 个 键 ， 殊 可 以 开启 
分 配 感 知 。 举 个 例子 ， 你 可 以 像 下 面 这 样 编辑 elasticsearch.yml ° 


cluster.routing.allocation.awareness.attributes: rack 


可 以 赋 多 个 值 到 给 感知 属性 ， 如 
cluster.routing.allocation.awareness.attributes: rack, group, 
zone ° 


=> 


使 用 之 前 的 定义 ， 你 将 使 用 感知 参数 rack 来 对 集群 内 的 分 片 进行 
分 组 。 用 户 可 以 为 每 个 节点 修改 elasticsearch.yml， 按 照 期 竺 的 网 络 配 
置 来 设置 该 值 。 请 注意 ，Elasticsearch 人 允许 用 户 在 节点 上 设置 元 数据 。 
在 这 种 情况 下 ， 元 数据 的 键 将 成 为 你 的 分 配 感知 参数 。 


一 个 简单 的 前 后 对 比 示 意图 将 有 助 于 我 们 的 理解 。 图 11-1 展 示 了 
拥有 默认 分 配 设 置 的 集群 。 


节点 1 

node.rack: 1 node.rack: 1 
节点 3 

node.rack: 2 node.rack: 2 


图 11-1 使 用 默认 分 配 设置 的 集群 


这 个 集群 的 问题 在 于 其 主 分 片 和 副本 分 厂 都 在 同一 个 主机 染 上 。 
有 了 分 配 感 知 的 设置 ， 就 可 以 避免 这 样 的 风险 ， 如 图 11-2 所 示 。 


node.rack: 1 node.rack: 1 


DRAG 


node.rack: 2 node.rack: 2 


图 11-2 ”使 用 分 配 感知 的 集群 


使 用 了 分 配 感 知 ， 主 分 片 不 会 被 移动 ， 但 是 副本 分 片 将 被 移动 到 
拥有 不 同 node .rack 参数 值 的 节点 。 分 片 的 分 配 是 一 个 很 方便 的 特 
性 ， 用 来 防止 中 心 点 失败 导致 的 故障 。 和 常见 的 方法 是 按照 地 点 、 机 
架 ， 甚 至 是 虚拟 机 来 划分 集群 的 拓扑 。 


下 面 我 们 来 看 看 使 用 现实 世界 中 AWS 的 区 域 ， 进 行 强制 分 配 的 例 


11.2.2 ”强制 性 的 分 配 感 知 


当 用 户 事先 知道 值 的 分 组 ， 而 且 希 望 限制 每 个 分 组 的 副本 分 片 数 
量 时 ， 强 制 分 配 感知 是 很 有 用 处 的 。 现 实 世界 中 的 一 个 常见 例子 就 是 
在 亚马逊 网 络 服务 (AWS) 或 其 他 路 地 区 云 服务 提供 商 上 使 用 多 地 区 
分 配 。 用 例 非 常 简 单 : 如 果 另 一 个 区 域 写 机 了 或 者 无 法 访问 ， 限 制 剩 


下 某 个 区 域内 的 副本 分 片 数 量 。 通 过 这 样 的 措施 ， 用 户 将 降低 从 男 一 
组 转移 过 多 副本 分 片 至 本 分 组 的 危险 。 


例如 ， 在 这 个 用 例 中 用 户 想 在 区 域 级 别 使 用 强制 分 配 。 首 先 ， 指 
定 了 zone 属性 。 接 下 来 ， 为 该 分 组 添加 多 个 维度 : us -east 和 us - 
west 。 在 elasticsearch.yml 中 ， 添 加 下 列 两 行 。 


cluster.routing.allocation.awareness.attributes: zone 


cluster.routing.allocation.force.zone.values: us-east, us-west 


有 了 这 些 设 置 ， 让 我 们 试 试 这 个 真实 世界 的 场景 。 假 设 在 东部 地 
区 启动 了 一 组 节点， 这些 节点 的 配置 都 是 node.zone : us-east ° 
这 里 将 使 用 默认 的 设置 ， 每 个 索引 有 5 个 主 分 片 和 1 个 副本 分 片 。 由 于 
没有 其 他 的 地 区 值 ， 只 有 索引 的 主 分 片 会 被 分 配 。 


现在 所 做 的 是 限制 了 副本 分 片 ， 使 其 只 会 均衡 到 没有 相应 zone 值 

的 节点 上 。 如 果 使 用 node .zone: us-west 启动 了 西部 地 区 的 集 
群 ， 那 么 从 us -east 地 区 来 的 副本 分 片 会 分 配 到 西部 集群 。 定 义 为 
node.zone: us-east 的 节点 之 上 永远 不 会 存在 副本 分 片 。 理 想 状 
况 下 ， 用 户 会 node .zone: us-west 的 节点 进行 同样 的 操作 ， 以 此 
确保 副本 分 片 永远 不 会 存在 于 同一 个 地 区 。 请 记 住 ， 如 果 失 去 了 和 西 
部 地 区 us -west 的 联系 ， 不 会 有 副本 分 片 在 东部 地 区 us -east 上 创 
建 ， 反 之 亦 然 。 


分 配 感知 需要 一 些 事先 的 规划 ， 不 过 即使 分 配 未 按照 计划 运作 ， 
这 些 设置 还 可 以 通过 集群 设置 API 在 运行 时 进行 修改 。 修 改 可 以 是 持久 
的 (persistent) ， 在 Elasticsearch 重 启 后 仍然 生效 ， 也 可 以 是 临时 的 


(transient) 


curl -XPUT localhost:9200/_cluster/settings -d '{ 
"persistent" : { 
"cluster.routing.allocation.awareness.attributes": zone 


"cluster.routing.allocation.force.zone.values": us-east, us- 


} 


west 


} 


集群 分 配 使 得 集群 在 容错 性 上 有 所 区 别 。 


现在 我 们 已 经 讨论 了 一 些 可 以 使 用 的 微调 ， 修 改 Elasticsearch 默 认 
的 分 片 分 配 设置 。 下 面 来 看 看 如 何 监 控 集 群 的 整体 健康 状态 以 发 现 潜 
在 的 性 能 问题 。 


11.3 ”监控 瓶颈 


Elasticsearch 通 过 它 的 API 接 口 提供 了 丰富 的 信息 : AFAR RE > oT 
点 成 员 、 分 片 分 发 以 及 IO 的 性 能 。 集 群 和 节点 API 测 量 集 群 的 健康 状 
况 和 整体 的 性 能 指标 。 理 解 集群 的 诊断 数据 并 预 估 集 群 的 整体 状态 ， 
将 提醒 用 户 注 意 性 能 的 瓶颈 ， 如 未 分 配 的 分 片 和 消失 的 节点 ， 这 样 就 
可 以 轻而易举 地 解决 这 些 问 题 。 


11.3.1 检查 集群 的 健康 状态 


集群 的 健康 API 接 口 提 供 了 一 个 方便 但 略 有 粗糙 的 概览 ， 包 括 集 
群 、 索 引 和 分 斤 的 整体 健康 状况 。 这 通 和 贡 是 发 现 和 诊断 集群 中 稍 见 问 
本 o 代码 清单 11-3 展 示 了 如 何 使 用 集群 健康 API 来 检查 整体 的 


代码 清单 11-3 ”集群 健康 API 的 请 求 


curl -XGET 'localhost:9200/_cluster/health?pretty'; 
请 求 的 答复 是 这 样 的 : 


"cluster_name" : "elasticig", 
"status" : "green", <--- 和 集群 状态 指示 器 : 方便 的 集群 整体 健康 指示 器 
"timed_out" : false, 
"number_of_nodes" : 2, =---- 集 群 中 节点 的 总 数量 
"number_of_data_nodes" : 2, 
"active_primary_shards" : 10, ~---- 在 集群 中 ， 存 放 数 据 的 节点 总 数 
E. 
EEN 


"active_shards" : 10, =---- 集 群 中 全 部 索引 的 主 分 片 总 数量 
"relocating_shards" : 0, =--- 集 群 中 全 部 索引 的 所 有 分 片 、 包 括 主 分 
片 和 副本 分 片 的 总 数量 


"initializing shards" : 0, =---- 当 下 正在 多 个 和 点 间 移 动 的 分 请 数 


"unassigned_shards" : 0 <。--- 新 创建 的 分 片 数 量 
} ”~—-- -集群 中 定义 的 、 却 未 能 发 现 的 分 片 数 量 


从 这 个 答复 的 表明 信息 ， 用 户 就 可 以 推断 出 很 多 关于 集群 整体 健 


康 状态 的 信息 ， 不 过 除了 第 一 眼 能 看 出 的 明显 内 容 ， 还 有 很 多 可 以 解 
读 的 地 方 。 让 我 们 深入 理解 一 下 代码 中 最 后 3 个 指示 需 的 含义 : 
relocating_shards ` initializing_shards 和 
unassigned_shards 。 


e relocating_shards 一 一 大 于 0 表示 Elasticsearch 正 在 集群 内 移 
动 数据 的 分 片 ， 来 提升 负载 均衡 和 故障 转移 。 这 通常 发 生 在 添加 
新 节点 、 重 启 失 歼 的 节点 或 者 删除 节点 的 时 候 ， 因 此 出 现 了 这 种 
临时 的 现象 。 
initializing_shards 当 用 户 刚 刚 创建 一 个 新 的 索引 或 者 
重启 一 个 节点 的 上 时候， 这 个 数值 会 大 于 0。 

unassigned_shards 这 个 值 大 于 0 的 最 常见 原因 是 有 尚未 
分 配 的 副本 分 请。 在 开发 环境 中 ， 这 个 问题 很 普遍 ， 因 为 单 世 点 
的 集群 其 索引 默认 有 5 个 分 片 和 1 个 副本 分 片 。 这 种 情况 下 ， 由 于 
无 多 余 和 点 来 分 配 副 本 分 片 ， 因 此 还 有 5 个 未 分 配 的 副本 分 片 。 


从 输出 结 采 的 第 一 行 可 以 看 出 ， 集 群 的 状态 是 绿色 的 。 有 了 时 也 不 
一 定 如 此 ， 如 节点 无 法 启动 或 者 从 集群 中 掉 出 的 情况 。 尽 管状 态 值 只 
征 给 你 一 个 大 致 的 集群 健康 状态 ， 理 解 状态 值 对 于 集群 性 能 的 售 义 还 
征 很 有 价值 的 。 


绿色 一 一 主 分 片 和 副本 分 片 都 已 经 分 发 而 且 运 作 正 常 。 

黄色 一 一 通常 这 是 副本 分 片 丢 失 的 信号。 这 个 时 候 ， 
unassigned_shards 的 值 很 可 能 大 于 0， 使 得 集群 的 分 布 式 本 
质 不 够 稳定 。 进 一 步 的 分 片 损 坏 将 导致 关键 数据 的 缺失 。 查 看 任 
何 没 有 正确 地 初始 化 或 运作 的 节点 。 

红色 一 一 这 是 危险 的 状态 ， 无 法 找到 集群 中 的 主 分 片 ， 使 得 主 分 
片上 的 索引 操作 不 能 进行 ， 而 且 导 致 了 不 一 致 的 查询 结果 。 同 
样 ， 很 可 能 一 个 或 多 个 市 点 从 集群 中 消失 。 


有 了 这 些 知 识 ， 用 户 现在 可 以 查看 一 个 黄色 状态 的 集群 ， 并 且 试 
图 跟 踩 问 题 的 根源 。 


curl -XGET 'localhost:9200/_cluster/health?pretty'; 
{ 


"cluster_name" : "elasticiq", 
"status" : "yellow", 
"timed_out" : false, 
"number_of_nodes" : 1, 
"number_of_data_nodes" : 1, 
"active_primary_shards" : 10, 
"active_shards" : 10, 
"relocating _shards" : 0, 
"initializing_shards" : 0, 
"unassigned_shards" : 5 


给 定 这 个 API 请 求 及 其 返回 结果 ， 用 户 可 以 看 到 目前 集群 处 于 黄色 
状态 ， 根 据 之 前 所 学 ， 可 能 的 徘 魁 祸首 是 unassigned_shards 值 大 
于 0 了 。 集 群 健康 API 提 供 了 更 多 的 细 粒 度 的 操作 ， 人 允许 用 户 进一步 地 
诊断 间 题 。 在 这 个 例子 中 ， 可 以 通过 添加 level 参数 ， 深 入 了 解 哪 些 
索引 受到 了 分 片 未 配置 的 影响 。 


curl -XGET 'localhost:9200/_cluster/health?level=indices&pretty'; 


{ 


"cluster_name" : "elasticigq", 
"status" : "yellow", 
"timed_out" : false, 
"number_of_nodes" : 1, ---- 请 注意 集群 只 有 一 个 节点 在 运行 
"number_of_data_nodes" : 1, 
"active_primary_shards" : 10, 
"active_shards" : 10, 
"relocating shards" : 0, 
"initializing_shards" : 0, 
"unassigned_shards" : 5, 
"indices" : { 
"bitbucket" : { 

"status" : "yellow", 

"number_of_shards" : 5, <--- 主 分 片 

"number_of_replicas" : 1, <--- 这 里 告诉 Elasticsearch 为 每 个 主 分 片 

配置 一 个 副本 分 所 

"active_primary_shards" : 5, 

"active_shards" : 5, 

"relocating shards" : 0, 

"initializing_shards" : 0, 

"unassigned_shards" : 5 =--- 缺 乏 足够 的 节点 来 支持 副本 分 片 的 定义 ， 最 


单 斑点 的 集群 遭遇 了 一 些 问 题 ， 原 因 是 Elasticsearch 试 图 在 集群 内 
分 配 副 本 分 片 ， 但 是 由 于 只 有 一 个 节点 在 运行， 它 无 法 进行 下 去 。 这 
导致 了 副本 分 户 未 能 分 发 到 各 处 ， 所 以 集群 的 状态 是 黄色 的 ， 如 图 11- 


3 所 示 。 
黄色 状态 : 单 节点 集群 中 ， 
所 有 的 分 片 都 被 限制 到 了 
一 个 节点 之 上 


Elasticiq: 节点 _1 


>} Hw 
oR tH 


绿色 状态 : 随 着 新 节点 
加 入 ， 副 本 分 片 得 到 均 
匀 的 分 发 


Elasticiq: 节点 _1 Elasticiq: 节点 _2 


Al11-3 ”通过 更 多 的 可 访问 节点 ， 让 黄色 状态 的 问题 得 以 解决 


正如 你 所 见 ， 一 个 简单 的 弥补 方式 是 同 集群 中 加 入 世 点 ， 这 样 
Elasticsearch 了 束 能 将 副本 分 所 配置 到 这 个 位 置 。 请 确 你 所 有 的 和 点 都 在 
运行 而 且 可 访问 ， 这 有 是 解决 黄色 状态 问题 最 简单 的 方法 。 


11.3.2 CPU: 慢 日 志 、 热 线程 和 线程 池 


监控 Elasticsearch 集 群 可 能 会 不 时 地 又 露 CPU 使 用 的 突 发 高 峰 ， 或 
者 是 持续 高 CPU 使 用 率 、 阻 塞 /等 竺 线程 导致 的 性 能 瓶颈 。 本 下 将 曾 明 
一 些 可 能 的 性 能 瓶 贷 ， 并 提供 必要 的 工具 让 用 户 侦 测 并 解决 这 些 问 


题 。 


慢 日 志 


Elasticsearch 提 供 了 两 项 日 志 来 区 分 慢 操 作 ， 它 们 很 容易 在 集群 配 
置 文件 中 设置 ， 慢 查询 日 志和 慢 索 引 日 志 。 默 认 情 况 下 两 者 都 是 关闭 
的 。 日 志 输 出 是 分 片 级 别 的 。 因 此 在 相应 的 日 志文 件 中 ， 一 个 操作 可 
能 由 若干 行 表示 由。 分 片 级 别 日 志 的 好 处 在 于 ， 用 户 可 以 根据 日 志 输 
ee oy Fr RR na 。 请 注意 这 些 设 置 可 以 

通过 ' {index_name}/_settings' 端点 进行 修改 。 


.search.slowlog.threshold. ,Warn: 10s 
.search.slowlog.threshold. .info: 1s 
.search.slowlog.threshold. .debug: 2s 
.search.slowlog.threshold. .trace: 500ms 


.search.slowlog.threshold. ,Warn: 1s 
.search.slowlog. threshold. .info: 1s 
.search.slowlog. threshold. .debug: 500ms 
.search.slowlog.threshold. .trace: 200ms 


QR AT OL, ALDARA EIN MOTE SBE: 查询 和 获取 。 日 志 
的 级 别 (警告 -warm、 信 息 -info、 调 试 -debug 和 跟踪 -trace) 允许 用 户 细 
粒度 地 控制 何 种 级 别 的 内 容 要 被 记录 下 来 ， 当 想 人 简单 地 查找 (grep) 
日 志文 件 时 这 一 点 很 方便 。 在 logging. yml 文 什 中 ， 可 以 配置 存放 日 志 
输出 的 实际 文件 ， 以 及 其 他 一 些 日 志 功 能 ， 如 下 所 示 。 


index_search_slow_log_file: 
type: dailyRollingFile 
file: ${path.logs}/${cluster.name}_index_search_slowlog.log 
datePattern: "'.'yyyy-MM-dd" 
layout: 
type: pattern 
conversionPattern: "[%d{ISO8601}][%-5p][%-25c] %m%n" 


典型 的 慢 日 志文 件 输出 看 上 去 是 这 样 的 : 


[2014-11-09 16:35:36,325][INFO ][index.search.slowlog.query] 
[ElasticIQ- 


Master] [streamglue][4] took[10.5ms], took_millis[10], types[], 
stats[], 

search_type[QUERY_THEN_FETCH], total_shards[10], 
source[{"query":{"filtered":{"query": {"query_string": 
{"query":"test"}}}},...] 

[2014-11-09 16:35:36,339][INFO ][index.search.slowlog. fetch] 
[ElasticIQ- 

Master] [streamglue][3] took[9.1ms], took_millis[9], types[], 
stats[], 

search_type[QUERY_THEN_FETCH], total_shards[10], ... 


2. (BAW AR 


对 于 识别 性 能 问题 ， 你 会 感 兴趣 的 一 个 重要 部 分 是 查询 的 时 间 : 
took[##ms] 。 此 外 ， 了 解 相关 的 分 片 和 索引 也 是 很 有 帮助 的 ， 这 些 
都 是 通过 [index][shard_number] 符号 来 标识 的 ， 在 这 个 例子 中 
它 是 [streamglue][4]。 


3. 慢 索 引 日 志 
在 发 现 索 引 操 作 过 程 中 的 瓶颈 时 ， 同 样 有 价值 的 是 慢 索 引 上 日志 。 


它 的 国 值 是 在 集群 配置 文件 中 定义 ， 或 者 是 通过 索引 更 痢 设 置 的 API 接 
口 定义 ， 和 之 前 的 慢 日 志 相 似 。 


.indexing.slowlog.threshold.index.warn: 10s 
.indexing.slowlog.threshold.index.info: 5s 


.indexing.slowlog.threshold.index.debug: 2s 
.indexing.slowlog.threshold.index.trace: 500ms 


和 之 前 一 样 ， 任 何 达 到 阐 值 的 索引 操作 将 被 写 入 到 日 志文 件 ， 而 
且 用 户 将 看 到 索引 操作 的 索引 名 和 分 配 数 [index][shard_number] 
([bitbucket][2]) 和 持续 时 间 (took[4.5ms] ) ° 


[2014-11-09 18:28:58,636][INFO ][index.indexing.slowlog. index] 
[ElasticIQ- 
Master] [bitbucket][2] took[4.5ms], took_millis[4], type[test], 


id[wOQyH_m6Sa2P-juppUy3Tw], routing[], source[] ... 


发 现 慢 查 询 和 慢 有 索引 请 求 出 现在 哪里 ， 对 于 纠正 Elasticsearch 的 性 
能 问题 大 有 帮助 。 容 妨 性 能 低下 的 行为 无 限制 地 增长 ， 可 能 会 导致 整 
个 集群 中 的 失败 逐渐 累积 ， 最 终 集 群 完 全 摇 溃 。 


4. 热线 程 API 接 口 


如 果 遇 到 过 集群 的 CPU 使 用 率 拓 高 不 下 ， 则 将 发 现 热线 程 
(hot_threads) API 对 于 识别 被 阻塞 并 导致 问题 的 具体 进程 ， 是 很 有 用 
处 的 。 这 里 热线 程 API 提 供 了 集群 中 每 个 节点 上 的 一 系列 阻塞 线程 。 请 
注意 ， 和 其 他 API 接 口 不 同 ， 热 线程 并 不 返回 JSON 格 式 的 内 容 ， 而 是 
如 下 格式 化 的 文本 : 


curl -XGET 'http://127.0.0.1:9200/_nodes/hot_threads'; 


下 面 是 输出 的 样 例 : 


::: [ElasticIQ-Master ] [AtPvr5Y3ReW-ua7ZPtPfuQ] [loki.local][inet[/ 
127.0.0.1:9300] ]{master=true} 

37.5% (187.6micros out of 500ms) cpu usage by thread 
"elasticsearch[ElasticIQ-Master ] [search] [T#191] 
10/10 snapshots sharing following 3 elements 


为 了 正确 地 理解 ， 热 线程 API 的 输出 需要 一 些 解 析 ， 让 我 们 看 看 它 
提供 了 哪些 关于 CPU 性 能 的 信息 : 


::: [ElasticIQ-Master ] [AtPvr5Y3ReW-ua7ZPtPfuQ] [loki.local][inet[/ 


127.0.0.1:9300] ]{master=true} 


结 采 的 第 一 行 包括 了 节点 的 吴 份 。 因 为 集群 很 可 能 有 多 于 一 个 的 
市 点 ， 这 古 线 程 信息 属于 哪个 CPU 的 第 一 个 标识 。 


37.5% (187.6micros out of 500ms) cpu usage by thread 


"elasticsearch[ElasticIQ-Master ] [search] [T#191] 


这 里 可 以 看 到 37.59% 的 CPU 处 理 花费 在 了 搜索 (search) 线程 上 。 
这 对 于 你 的 理解 很 关键 ， 因 为 可 以 调 优 导致 CPU 高 峰 的 搜索 查询 。 希 
望 这 里 不 要 总 是 出 现 搜 索 。Elasticsearch 可 能 显示 其 他 的 值 ， 如 merge 
、index ， 来 表明 此 线程 进行 的 操作 。 由 于 cpu usage 的 标识 ， 你 
知道 了 这 是 和 和 CPU 相关 的 。 其 他 可 能 的 输出 标识 有 阻塞 占 比 block 


usage ， 表 示 线 程 被 阻塞 了 ， 以 及 等 竺 占 比 wait usage 表示 线程 在 
等 待 状态 。 


JD 


10/10 snapshots sharing following 3 elements 


在 堆栈 轨迹 (stack trace) 之 前 的 最 后 一 行 告 诉 你 ，Elasticsearch 在 
几 毫 秒 中 进行 了 10 次 快照 ， 然 后 发 现 拥有 如 下 同样 堆栈 轨迹 的 线程 在 
这 10 次 中 都 出 现 了 。 


当然 ，Elasticsearch 如 何 收集 热线 程 API 提 供 的 信息 ， 是 值得 学 习 
的 。 每 过 几 个 训 秒 ，Elasticsearch 就 会 收集 每 个 线程 的 持续 时 间 、 状 态 
(等 待 /阻塞 ) 、 等 待 持续 时 间 以 及 阻塞 持续 时 间 等 相关 的 信息 。 过 了 
指定 的 时 间 间 隔 (默认 是 500 写 秒 ) ，Elasticsearch 会 对 同样 的 信息 进 
行 第 二 轮 收集 操作 。 在 每 次 收集 过 程 中 ， 它 会 对 每 个 堆栈 轨迹 拍摄 快 
照 。 用 户 可 以 通过 向 hot_threads API 请 求 添加 参数 ， 来 调整 信息 收 
集 的 过 程 : 


curl -XGET 'http://127.0.0.1:9200/_nodes/ 


hot_threads?type=wait&interval=1000ms&threads=3' ; 


e type ——cpu * wait 和 block 之 一 。 需 要 快照 的 线程 状态 类 


型 o 
e interval -第 一 次 和 第 二 次 检查 之 间 的 等 待 时 间 。 默 认 是 500 
毫秒 。 


e threads 一 一 排名 靠 前 的 “热线 程 的 展示 数量 。 


5. 线程 池 


集群 中 的 每 个 节点 通过 线程 池 来 管理 CPU 和 内 存 的 使 用 。 
Elasticsearch 将 试图 使 用 线程 池 以 获得 更 好 的 节点 性 能 。 在 某 些 情况 
下 ， 需 要 手动 地 配置 并 修改 线程 池 管 理 的 方式 ， 来 避免 失败 累积 ( 雪 
PAM) 的 场景 。 在 负载 很 重 的 情况 下 ，Elasticsearch 可 能 会 孵化 出 上 
千 个 线程 来 处 理 请 求 ， 导 人 致 集群 宕 机 。 想 要 理解 如 何 调 优 线程 池 ， 就 
需要 精通 应 用 程序 使 用 Elasticsearch API 的 知识 。 举 例 来 说 ， 对 于 一 个 
主要 使 用 bulk 索 引 API 的 应 用 程序 ， 我 们 需要 为 其 分 配 较 多 的 线程 。 否 
a bulk index 请 求 束 会 变 得 负载 很 重 ， 而 新 进来 的 请 求 束 会 被 忽 
WE o 

可 以 在 集群 配置 中 调 太 线程 池 的 设置 。 线 程 池 按照 操作 进行 划 
分 ， 并 根据 操作 的 类 型 配置 默认 值 。 为 了 简洁 起 见 ， 这 里 只 列 出 其 中 


PRILA 


e bulk 一 一 默认 是 固定 的 值 ， 基 于 可 用 于 所 有 bulk 批 量 操作 的 处 理 


器 数量 。 
+ index _ ”默认 是 固定 的 值 ， 基 于 可 用 于 索引 和 删除 操作 的 处 理 
。search ”默认 是 国定 的 值 ，3 倍 可 用 于 计数 和 搜索 操作 的 处 理 


查阅 elasticsearch.yml 配 置 ， 可 以 看 到 能 为 所 有 的 批量 操作 增加 线 
程 池 队列 的 大 小 ， 以 及 线程 池 的 数量 。 请 注意 ， 集 群 设置 API 也 人 允许 用 
户 在 运行 中 的 集群 上 更 新 这 些 设置 。 


# Bulk Thread Pool 
threadpool.bulk.type: fixed 


threadpool.bulk.size: 40 
threadpool.bulk.queue_size: 200 


有 两 种 线程 池 的 类 型 ，fixed 和 cache ° fixed 的 线程 池 类 型 
保持 固定 数量 的 线程 来 处 理 请 求 ， 并 使 用 后 援 队列 来 处 理 等 待 执行 的 
请 求 。 在 这 个 例子 中 ，queue_size 参数 控制 了 线程 的 数量 ， 默 认 是 


CPU 核 数 的 5 倍 。 而 cache 线程 池 类 型 是 没有 限制 的 ， 这 意味 着 只 要 
有 任何 等 待 执行 的 请 求 ， 系 统 就 会 创建 一 个 新 的 线程 。 


有 了 集群 健康 的 API 接 口 ， 慢 查询 和 索引 上 日志， 以 及 线程 信息 ， 欢 
可 以 更 方便 地 诊断 CPU 集中 的 操作 和 瓶颈 。 下 一 将 讨论 内 存 相 关 的 
信息 ， 这 些 将 有 助 于 诊断 和 调 优 Elasticsearch 的 性 能 问题 。 


11.3.3 内存: 堆 的 大 小 、 字 段 和 过 滤器 缓存 


本 广 将 会 探索 Elasticsearch 集 群 中 有 效 的 内 存 管理 和 调 优 。 很 多 
Elasticsearch 的 聚集 和 过 滤 操 作 都 是 受 限 于 内 存 的 ， 所 以 理解 如 何 有 效 
地 改善 Elasticsearch 默 认 的 内 存 管 理 设置 ， 以 及 底层 的 JVM 虐 拟 机 对 于 
扩展 集群 非常 有 用 。 


1. 推 的 大 小 


Elasticsearch 是 运行 于 Java 虚 拟 机 (JVM) 之 上 的 Java 应 用 程序 ， 
所 以 它 受 限于 垃圾 回收 缕 (garbage collector) 的 内 存 管 理 。 垃 圾 回收 
铝 的 基本 概念 是 非常 简单 的 :当空 内 存 不 够 用 的 时 候 ， 束 会 触发 垃 
圾 回收 ， 清 理 已 经 不 再 引用 的 对 象 ， 以 此 来 释放 内 存 供 其 他 JVM 应 用 
程序 使 用 。 这 些 垃圾 回收 操作 是 很 耗 时 间 的 ， 并 会 引起 系统 的 停顿 。 
将 过 多 的 数据 加 载 到 内 存 也 会 导致 OutOfMemory 的 异常 ， 引 起 失败 
和 不 可 预测 的 结果 一 一 其 至 是 垃圾 回收 器 都 无 法 解决 的 问题 。 


为 了 让 Elasticsearch 更 快 ， 某 些 操作 在 内 存 中 执行 ， 因 为 字段 数据 
的 读 取 已 被 优化 。 例 如 ，Elasticsearch 不 仅 加 载 和 查询 匹配 的 文档 之 字 
段 数据 ， 它 还 加 载 了 索引 中 全 部 文档 的 值 。 通 过 快速 访问 内 存 中 的 数 
据 ， 后 续 的 查询 会 快 得 多 。 


JVM 堆 表示 了 分 配给 JVM 上 运行 的 应 用 程序 之 内 存量 。 由 于 这 个 
原因 ， 理 解 如 何 调 优 其 性 能 来 避免 垃圾 收集 停顿 带 来 的 副作用 和 
OutOfMemory 异常 ， 是 非常 重要 有 的。 用户 可 以 通过 HEAP_SIZE 环境 
变量 来 设置 JVM 堆 的 大 小 。 当 设置 堆 的 大 小 时 ， 请 牢记 两 条 如 下 的 黄 


金 法 则 。 


。 最 多 50% 可 用 的 系统 内 存 一 一 分 配 过 多 的 系统 内 存 给 JVM 就 意味 
着 分 配给 底层 文件 系统 缓存 的 内 存 更 少 ， 而 文件 系统 缓存 却 是 
Lucene 需 要 经 常 使 用 的 。 

。 最 大 32 GB 内 存 分 配 了 超过 32 GB 的 内 存 之 后 ，JVM 的 行为 就 
会 发 生变 化 ， 不 再 使 用 压缩 的 普通 对 象 指针 (OOP) 。 这 就 意味 
着 堆 的 大 小 少 于 32 GB 时 ， 只 需要 使 用 大 约 一 半 的 内 存 空 间 。 


2. 过 滤器 和 字段 缓存 


缓存 对 于 Elasticsearch 的 性 能 而 言 ， 扮 演 着 非常 重要 的 角色 。 它 允 
许 用 户 有 效 地 使 用 过 滤 右 、 切面 (facet) 和 索引 字段 的 排序 ° 本 市 将 
探索 两 种 缓存 ， 过 小 器 绥 存 和 字段 数据 缓存 。 


过 滤 絮 缓存 将 过 滤 占 和 查询 操作 的 结 末 存放 在 内 存 中 。 这 意味 着 
使 用 过 滤器 的 初始 查询 将 其 结果 存储 在 过 滤 名 缓存 中 。 随 后 应 用 该 过 
滤 需 的 每 次 得 询 都 会 使 用 缓存 中 的 数据 ， 而 不 会 去 磁盘 查找 。 过 滤 天 
效 地 降低 了 对 CPU 和 IO 的 影响 ， 并 使 得 过 滤 查 询 的 结果 返回 更 

[迅速 。 


在 Elasticsearch 中 存在 两 类 过 滤器 缓存 。 


。 索 引 级 别 的 过 滤器 缓存 。 
。 节 点 级 别 的 过 滤器 缓存 。 


上 默认 的 设置 是 市 点 级 别 的 过 滤 右 缓存 ， 也 是 我 们 即将 讨论 的 。 索 
引 级 别 的 过 滤器 缓存 并 不 推荐 ， 原因 古 用 户 无 法 预测 索引 将 会 存放 在 
集群 中 的 何 处 ， 因 此 也 无 法 预计 内 存 的 使 用 量 。 


节点 级 别 的 过 滤器 缓存 采用 的 是 LRU (近期 最 少 使 用 ) 缓存 类 

型 。 这 意味 着 当 绥 存 要 满 的 时 候 ， 使 用 次 数 最 少 的 缓存 条 目 将 被 首先 
销毁 ， 为 新 的 条 目 腾 出 空间 。 如 果 要 选择 这 种 缓存 类 型 ， 将 
index.cache.filter.type 设置 为 node ， 或 者 干脆 不 设置 ， 
为 它 是 默认 值 。 现 在 ， 可 以 使 用 indices.cache.filter.size 属 
性 来 设置 缓存 大 小 。 大 小 值 是 在 节点 的 elasticsearch.yml 配 置 中 定义 
的 ， 它 既 可 以 使 用 内 存 的 百分比 (20%) ， 也 可 以 使 用 静态 的 值 

(1024 MB 字 节 ) 。 请 注意 ， 百 分 比 的 属性 是 将 节点 上 最 大 的 堆 内 存 
作为 总 数 来 进行 计算 的 。 


3. 字段 数据 缓存 


字段 数据 缓存 用 于 提升 查询 的 执行 时 间 。 当 运行 查询 的 时 候 ， 
Elasticsearch 将 字段 值 加 载 到 内 存 中 并 将 它们 保存 在 字段 数据 的 缓存 
中 ， 用 于 之 后 的 请 求 。 由 于 在 内 存 中 构建 这 样 的 结构 是 成 本 很 高 的 操 
作 ， 你 不 希望 Elasticsearch 对 于 每 次 请 求 都 执行 这 个 动作 ， 这 样 性 能 的 
提升 才 会 明显 。 默 认 地 ， 这 是 一 个 没有 限制 的 缓存， 也 就 是 说 它 会 持 
续 增长 ， 直 到 触动 了 字段 数据 的 断路 器 (下 一 节 会 讨论 ) 。 通 过 为 字 
段 数 据 缓 存 设置 上 限 值 ， 你 告诉 Elasticsearch 一 旦 达到 这 个 上 限 ， 束 将 
数据 从 缓存 结构 中 移 除 。 

你 的 配置 应 该 包含 了 一 个 ijndices.fielddata.cache. size 
属性 ， 它 既 可 以 设置 为 百分比 (20%) 也 可 以 设置 为 静态 的 值 (16 
GB) 。 这 些 值 表示 了 用 于 缓存 的 节点 堆 内 存 空间 之 百分比 或 绝对 值 。 


为 了 获取 字段 数据 缓存 的 现 有 状态 ， 你 可 以 使 用 一 些 方便 的 API 接 
O œ 


。 RET TORE: 


curl -XGET 'localhost:9200/_nodes/stats/indices/ 


fielddata?fields=*&pretty=1' ; 


。 按照 每 个 索引 来 看 : 


curl -XGET 'localhost:9200/_stats/fielddata?fields=*&pretty=1'; 


。 按照 每 个 节点 的 每 个 索引 来 看 : 


curl -XGET 'localhost:9200/_nodes/stats/indices/ 


fielddata?level=indices&fields =*&pretty=1'; 


设置 fields=* 将 返回 所 有 的 字段 名 称 和 取 值 。 这 些 API 接 口 的 输 
出 和 下 面 的 类 似 。 


"indices" : { 
"bitbucket" : { 
"fielddata" : { 
"memory_size_in_bytes" : 1024mb, 


"evictions" : 200, 
"fields" : { ... } 
} 
ine haat 


这 些 操 作 将 分 析 缓 存 的 现 有 状态 。 请 特别 注意 evictions ( 移 除 
数据 ) 的 次 数 。 数 据 的 移 除 是 成 本 昂贵 的 操作 ， 其 发 生 表明 字段 数据 
的 缓存 规模 可 能 设置 得 过 小 。 


4. 断路 器 


在 之 前 的 章节 我 们 提 到 ， 字 段 数据 缓存 可 能 会 不 断 增 加 最 终 导 致 
OutOfMemory 的 异常 。 这 是 因为 字段 数据 的 规模 是 在 数据 加 载 之 后 
oe ot T mE RIS PAULA ACE, Elasticsearch#e tt T W ES AeA AL 
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rear AAW PR Til, HORA BIKE KOutOfMemory z% H EAA) 
概率 。 它 们 通过 反省 某 个 查询 所 请 求 的 数据 字段 ， 来 确定 将 这 些 数据 
加 载 到 缓存 后 是 否 会 使 得 整体 的 规模 超出 缓存 的 大 小 限制 。 在 
Elasticsearch 中 有 两 个 断路 右 ， 还 有 一 个 是 父 幸 断路 右 ， 它 在 所 有 断路 
器 可 能 使 用 的 内 存 总 量 上 又 设置 了 一 个 限制 。 


e indices.breaker.total.1imit 一 默认 是 堆 内 存 的 70%。 
不 允许 字段 数据 和 请 求 断 路 絮 超 越 这 个 限制 。 

e indices.breaker.fielddata. limit ——#ti\ SHEN 
609%6。 不 允许 字段 数据 的 缓存 超越 这 个 限制 。 

。jindices,breaker,request,1imit 一 默认 是 堆 内 存 的 
40%。 挥 制 分 配给 聚集 桶 创建 这 种 操作 的 堆 大 小 。 


断路 器 设置 的 黄金 法 则 是 对 其 数 人 的 设 定 要 保守 , AABT ES as PAT 
控制 的 缓存 需要 和 内 存 缓冲 区 、 过 滤器 缓 存 和 其 他 Elasticsearch 内 存 开 
销 一 起 共用 内 存 空间 。 


5 .避免 交换 


操作 系统 通过 交换 (swap) 进程 将 内 存 的 分 页 写 入 人 磁盘 。 当 内 存 
的 容量 不 够 操作 系统 使 用 的 时 候 ， 这 个 过 程 束 会 发 生 。 当 操作 系统 需 
要 已 经 被 交换 出 去 的 分 页 时 ， 这 些 分 页 将 被 再 次 加 载 回 内 存 以 供 使 
用 。 区 换 旦 成 本 高 昂 的 操作 ， 应 该 尽量 避免 。 


Elasticsearch 在 内 存 中 保留 了 很 多 运行 时 必需 的 数据 和 缓存 ， 如 岁 
11-4 所 示 ， 所 以 消耗 资源 的 磁盘 读 写 操作 将 严重 地 影响 正在 运行 的 集 
群 。 鉴 于 这 个 原因 ， 我 们 将 展示 如 何 关 闭 交 换 以 获得 更 好 的 性 能 。 


物理 内 存 


Elasticsearch 进 程 


虚拟 内 存 


图 11-4 Elasticsearch 将 运行 时 的 数据 和 缓存 都 放 在 内 存 中 ， 因 此 读 写 操作 [2] 可 能 是 


关闭 Elasticsearch 交 换 最 彻底 的 方法 是 ， 在 elasticsearch.yml 文 件 中 
将 bootstrap.mlockall 设置 为 true 。 接 下 来 ， 需 要 验证 设置 是 
否 生 效 。 运 行 Elasticsearch， 可 以 检查 警告 日 志 或 者 是 查询 一 个 活动 状 
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。 日志 中 的 错误 样 例 : 


[2014-11-21 19:22:00,612][ERROR][common.jnal] 


Unknown mlockall error 0 


e APIT 请 求 : 


curl -XGET 'localhost:9200/_nodes/process?pretty=1' ; 


。 请 求 回复 : 


"process" : { 
"refresh_interval_in_millis" : 1000, 
"id" : 9809, 


"max_file_descriptors" : 10240, 
"mlockall" : false 


如 果 在 日 志 中 发 现 了 如 此 的 警告 信息 ， 或 者 是 状态 检查 的 结果 中 
mlockall 被 设置 为 了 false ， 那 么 你 的 设置 还 未 生效 。 运 行 
Elasticsearch 的 用 户 没 有 足够 的 访问 权限 ， 是 新 设置 没有 生效 的 最 常见 
原因 。 通 常 以 root 用 户 的 号 份 在 命令 行 运行 ulimit -1 unlimited 
可 以 解决 这 个 问题 。 为 了 这 些 新 设置 能 生效 ， 还 需要 重启 


Elasticsearch ° 


11.3.4 ”操作 系统 缓存 


由 于 Lucene 不 可 变 的 分 段 ，Elasticsearch 和 Lucene 很 大 程度 上 使 用 
了 操作 系统 的 文件 缓存 。 按 照 设计 ，Lucene 利 用 底层 的 操作 系统 文件 
缓存 来 构建 内 存 里 的 数据 结构 。Lucene 分 段 存储 于 单个 不 可 变 的 文件 
中 。 大 家 认为 不 可 变 的 文件 对 于 缓存 而 言 是 友好 的 ， 而 底层 的 操作 系 
统 将 “热门 ”的 分 段 保 存 于 内 存 中 ， 以 便 更 快 地 访问 。 最 终 的 效果 就 
| 更 容易 于 被 操作 系统 完全 缓存 于 内 存 中 ， 无 须 读 取 了 磁 


由 于 Lucene 很 大 程度 上 使 用 操作 系统 的 文件 缓存 ， 之 前 我 们 已 经 
建议 将 JVM 堆 的 大 小 设置 为 物理 内 存 的 一 半 ， 这 样 Lucene 束 能 使 用 剩 
下 的 一 半 作 为 缓存 。 出 于 这 一 点 ， 最 佳 实践 会 将 经 常 使 用 的 索引 存放 
在 更 快 的 机 器 上 。 其 基本 思路 是 ，Lucene 将 热门 的 数据 分 段 保留 在 内 
存 中 以 便 超 快 地 读 取 ， 而 对 于 有 更 多 非 堆 内 存 的 机 器 而 言 这 一 点 更 容 


易 办 到 。 不 过 ， 为 了 实现 这 个 目标 ， 需 要 使 用 路 由 将 具体 的 索引 分 配 
BRAY TRAE ° 


首先 ， 需 要 为 全 部 的 节点 分 配 一 个 特定 的 属性 tag 。 每 个 节点 的 
tag 值 是 唯一 的 ， 如 node. tag: mynode1 或 者 node tag: 
mynode2。 使 用 市 点 的 单独 设置 ， 可 以 只 在 拥有 指定 tag 值 的 六 点 上 创 
建 索 引 。 请 记 住 ， 这 样 做 的 意义 在 于 确保 新 的 、 繁 忙 的 索引 只 会 在 拥 
有 更 多 非 堆 内 存 的 节点 上 创建 ，Lucene 也 可 以 充分 利用 这 些 内 存 。 为 
了 达到 这 个 目的 ， 使 用 下 面 的 命令 ， 这 样 新 索引 myindex 只 会 在 tag 
值 为 nynode1 和 mynode2 的 和 点 上 创建 。 


curl -XPUT localhost:9200/myindex/_settings -d '{ 


"index.routing.allocation.include.tag" : "mynode1,mynode2" 


} 1 


假设 这 些 特定 的 节点 有 更 多 的 非 堆 内 存 可 分 配 ，Lucene 将 在 内 存 
中 缓存 分 段 ， 使 得 你 的 索引 拥有 比 碍 找 磁 表 分 段 更 短 的 啊 应 时 间 。 


11.3.5 “存储 限 流 


Apache Lucene 在 人 磁盘 上 不 变 的 分 段 文件 中 存储 数据 。 根 据 定义 ， 
不 变 的 文件 只 会 被 Lucene 写 入 一 次 ， 但 是 被 读 取 很 多 次 。 在 这 些 分 段 
上 进行 合并 操作 是 因为 ， 当 一 个 新 的 分 段 写 入 时 ， 一 次 就 能 读 取 很 多 
分 段 。 尽 管 这 些 合并 操作 通常 不 会 对 于 系统 有 很 大 的 影响 ， 当 合并 、 
oy | 和 搜索 操作 同时 发 生 的 时 候 ，LIO 很 低 的 系统 仍然 会 受到 负面 的 影 
Haj © 


用 户 可 以 设置 节点 级 别 和 索引 级 别 的 限 流 。 在 节点 级 别 ， 限 流 设 
ee RST, (ete 5 RAR AS Ea EAS EE 
By o 


万 点 级 别 的 限 流通 过 
indices.store.throre.throttle.type 属性 来 设置 ， 可 能 的 值 
有 none 、merge Mall 。 值 merge 告诉 Elasticsearch 对 整个 节点 上 的 
合并 操作 进行 WO 限 流 ， 包 括 节 点 上 的 每 个 分 片 。 而 值 a11 将 限 流 的 限 


制 实施 在 节点 所 有 分 片 的 所 有 操作 之 上 。 索 引 级 别 的 限 流 其 配置 方法 

类 似 ， 不 过 是 使 用 index,store,throttle,type 属性 。 此 外 ， 索 
， 这 样 的 话 它 也 会 将 限 流 设置 运用 在 整个 
W A, (0) 


无 论 你 是 想 实 现 节 点 级 还 是 索引 级 的 限 流 ，Elasticsearch 都 提供 了 
相应 的 属性 来 设置 WO 所 能 使 用 的 每 秒 最 大 字 节 数 。 对 于 节点 级 的 限 
流 ， 使 用 indices,store.throttle.max_ bytes_per_sec , 
对 于 索引 级 的 限 流 使 用 
index,store.throttle,max_bytes_per_sec。 请 注意 这 些 值 
的 单位 是 兆 字 市 每 秒 。 


indices.store.throttle.max_bytes_per_sec : 


index.store.throttle.max_bytes_per_sec : "10mb" 


我 们 留 下 一 个 小 练习 ， 为 你 的 系统 配置 合适 的 值 。 如 果 系 统 IO 等 
pe 频率 很 高 或 者 性 能 有 所 下 降 ， 将 这 些 值 降 低 也 许 会 有 助 于 问题 的 


尽管 探索 了 减少 灾难 的 方法 ， 但 是 在 下 一 节 我 们 仍然 要 看 看 如 何 
备份 集群 的 数据 ， 并 在 灾后 将 数据 恢复 到 集群 中 。 


[1] ”每 行 表示 一 个 分 片上 的 情况 。 一 一 译 者 注 
[2] “这 里 是 指 分 页 引起 的 读 写 操作 。 一 一 译 者 注 


11.4 备份 你 的 数据 


Elasticsearch 提 供 了 一 个 功能 全 面 的 、 增 量 型 的 数据 备份 方案 。 快 
照 和 恢复 API 让 你 可 以 将 单个 索引 数据 、 全 部 索引 甚至 是 集群 的 设置 备 
份 到 远 端 的 质料 库 或 是 可 插 拔 的 后 端 系统 ， 然 后 很 容易 地 将 这 些 内 容 
恢复 到 现 有 的 集群 或 靳 集群 。 


创建 快照 的 典型 用 例 是 为 灾难 恢复 执行 备份 。 不 过 ， 你 可 能 会 发 
现 将 生产 环境 的 数据 复制 到 开发 或 测试 环境 时 ， 甚 至 是 作为 执行 大 规 
模 修 改 前 的 保障 时 ， 这 个 操作 也 很 有 用 。 


11.4.1 快照 API 


首次 使 用 快照 API 备 份 数据 时 ，Elasticsearch 将 复制 集群 的 状态 和 
数据 。 所 有 后 续 的 快照 将 包含 前 一 个 版 本 之 后 的 修改 。 快 照 的 进程 是 
非 阻塞 的 ， 所 以 在 运行 的 系统 上 执行 快照 应 该 不 会 对 性 能 产生 明显 的 
影响。 此 外 ， 由 于 每 个 后 续 快 照 都 是 基于 之 前 快照 的 差 量 ， 随 着 时 间 
的 推移 它 将 进行 更 小 、 更 快 的 快照 。 


需要 注意 快照 存储 在 资料 库 之 中 。 资 料 库 可 以 定义 为 文件 系统 或 
者 是 URL ° 


。 文件 系统 的 资料 库 需 要 一 个 共 至 的 文件 系统 ， 而 且 该 共 至 文件 系 
统 必 须 安装 在 集群 的 每 个 节点 上 。 
e URL 的 资料 库 是 只 读 的 ， 可 以 作为 替代 的 快照 存储 方案 。 


本 章节 将 讨论 更 常见 和 更 灵活 的 文件 系统 资料 库 ， 包 括 如 何在 其 
ee 


11.4.2 ”将 数据 备份 到 共享 的 文件 系统 


o 进行 集群 的 备份 意味 看 执行 3 个 步 又 ， 我 们 深入 讨论 一 下 它们 的 细 
TY o 


。 定义 一 个 资料 库 一 -告诉 Elasticsearch 你 想 如 何 构建 资料 库 © 


。 人 车 的 存在 一 一 需要 验证 资料 库 已 经 按照 你 的 定义 被 创建 
T aa RR oh 


开局 快照 的 首 个 步 台 ， 需 要 定义 一 个 共 诗 的 文件 系统 资料 库 。 代 
RE 令 在 网 络 安装 的 驱动 器 上 定义 了 一 个 新 的 资料 
车 o 


代码 清单 11-4 ”定义 一 个 新 的 资料 库 


curl -XPUT 'localhost:9200/_snapshot/my_repository' -d ' 
=- - -资料 库 的 名 称 : my_repository 


{ 
"type": "fs", ~---- 将 资料 库 的 类 型 定义 为 共享 的 文件 系统 
"settings": { 
"location": "smb://share/backups"， <--- WEAN MZ 


"compress" : true, <--- 该 值 默认 是 true， 它 表示 压缩 元 数 


"max_snapshot_bytes_per_sec" : "20mb", =---- 快 照 每 

;传输 的 速 
"max_restore_bytes_per_sec" : "20mb" ~--- 恢 复 时 每 

;传输 的 速 


一 旦 完成 了 集群 货 料 库 的 定义 ， 束 可 以 使 用 一 个 简单 的 GET 命令 
来 确定 其 存在 。 


curl -XGET 'localhost:9200/_snapshot/my_repository?pretty=1' ; 


"my_repository" : { 

"type" : MESH; 

"settings" : { 
"compress" : "true", 
"max_restore_bytes_per_sec" : "20mb", 
"location" : "smb://share/backups", 
"max_snapshot_bytes_per_sec" : "20mb" 

} 


} 


请 注意 默认 情况 下 ， 无 须 指 定 资料 库 的 名 称 ，Elasticsearch 将 返回 
集群 中 所 有 已 经 注册 的 资料 库 。 


curl -XGET 'localhost:9200/_snapshot?pretty=1'; 


BARREL SBR, Mn DRE Ra, BRAK 
照 /备份 。 


curl -XPUT 
"localhost :9200/_snapshot/my_repository/first_snapshot'; 


这 个 命令 会 触发 一 个 快照 操作 并 立即 返回 。 如 果 想 等 待 快照 运行 
结束 ， 则 可 以 添加 可 选 的 wvait_for_completion 旗 标 。 


curl -XPUT 'localhost:9200/_snapshot/my_repository/ 
first_snapshot?wait_for_completion=true'; 


现在 查阅 一 下 资料 库 所 在 的 位 置 ， 看 看 快照 命令 都 存储 了 哪些 内 


号 


./backups/index 

./backups/indices/bitbucket/0/_ 0 
./backups/indices/bitbucket/0/__1 
./backups/indices/bitbucket/0/__10 
./backups/indices/bitbucket/1/__c 
./backups/indices/bitbucket/1/__d 
./backups/indices/bitbucket/1/snapshot-first_snapshot 


./backups/indices/bitbucket/snapshot -first_snapshot 
./backups/metadata-first_snapshot 
./backups/snapshot -first_snapshot 


从 这 个 代码 清单 中 ， 可 以 看 出 Elasticsearch 备 份 的 模式 。 这 个 快照 
包含 了 集群 中 每 个 索引 、 分 片 、 NEEM AIRE, es 
路 径 结构 为 : /< 索引 名 称 >/< 分 片 名 称 >/< 分 段 ID>。 一 个 样 例 的 快照 文 
件 看 上 去 和 下 面 这 个 类 似 ， 包 含 了 大 小 、Lucene 分 段 和 目录 结构 中 每 

个 快照 所 指 回 的 文件 。 


smb: //share/backups/indices/bitbucket/0/snapshot-first_snapshot 
{ 
"name" : "first_snapshot", 
"index_version" : 18, 
"start_time" : 1416687343604, 
"time" : 11, 
"number_of_files" : 20, 
"total_size" : 161589, 
"files" : [ { 
"name" a "0", 
"ohysical_name" : "_1l.fnm", 
"length" : 2703, 
"checksum" : "10t813j", 
"written_by" : "LUCENE 4 9" 


{ 
"name" à My 
"physical name" : "_1 Lucene49_0.dvm", 
"length" : 90, 
"checksum" : "ih6yhga", 
"written_by" : "LUCENE 4 9" 


"name" . " 2" 

a -一 一 F 
"physical_name" : "_1.si", 
"length" : 444, 

"checksum" : "afusmz", 
"written_by" : "LUCENE _4 9" 


1. 第 二 个 快照 


因为 快照 是 增 量 的 ， 只 存储 两 次 快照 之 间 的 产量 ， 所 以 第 二 次 快 
照 命令 会 创建 更 多 的 几 个 3 数据 文件 ， 但 是 不 会 从 头 开 始 创建 整个 快 


curl -XPUT 


‘localhost :9200/_snapshot/my_repository/second_snapshot'; 


分 析 新 的 数目 结构 ， 你 会 看 到 只 有 一 个 文件 被 修改 了 : EHK 
ree se tale E ger ale 过 的 快照 列 


{"snapshots":["first_snapshot", "second_snapshot" ]} 


2. 针对 每 个 索引 的 快照 


在 之 前 的 例子 中 ， a Oa a 快 
照 。 请 注意 ， 快 照 可 以 按照 每 个 索引 为 单位 进行 ， 需 要 在 PUT 命令 中 
EASIER o 


curl -XPUT 'localhost:9200/_snapshot/my_repository/third_snapshot' 
-d '! 


"indices": "logs-2014, logs-2013" ~--- 需 要 进行 快照 的 索引 名 称 列表 ， 以 去 


向 同样 的 端点 发 送 一 个 GET 请 求 ， 可 以 获得 给 定 快 照 (或 全 部 快 
BR) 之 状态 的 基本 信息 


curl -XGET 'localhost:9200/_snapshot/my_repository/first_snapshot? 


pretty'; 


该 请 求 的 答复 包 售 了 快照 由 哪些 索引 组 成 的 信息 以 及 整个 快照 操 
作 的 总 体 持续 时 间 。 


{ 


"Snapshots": [ 


{ 
"snapshot": "first_snapshot", 
"indices": [ 
"bitbucket" 
], 


"state": "SUCCESS", 
"start_time": "2014-11-02T22:38:14.078Z", 
"start_time_in_millis": 1414967894078, 
"end_time": "2014-11-02T22:38:14.129Z", 
"end_time_in_millis": 1414967894129, 
"duration_in_millis": 51, 
"failures": [], 
"shards": { 

"total": 10, 

"failed": 0, 

"successful": 10 


将 快照 的 名 称 奉 换 为 “_all*"， 会 获得 资料 库 中 所 有 快照 的 信息 。 


curl -XGET 'localhost:9200/_snapshot/my_repository/_all'; 


由 于 快照 是 增 量 的 ， 因 此 当 删 除 不 再 需要 的 旧 快 照 时 ， 你 必须 非 
常 谨慎。 我 们 总 是 建议 你 使 用 快照 API 来 删除 旧 的 快照 ， 因 为 API 只 会 
删除 现在 不 用 的 数据 分 段 。 


curl -XDELETE 


‘localhost :9200/_snapshot/my_repository/first_snapshot'; 


现在 ， 你 充分 理解 了 备份 集群 时 所 能 使 用 的 选项 ， 下 面 让 我 们 看 
看 如 何 通过 这 些 快照 恢复 集群 的 数据 和 状态 ， 在 灾难 来 临 的 时 候 你 需 
要 知道 这 些 。 


11.4.3 ”从 备份 中 恢复 


快照 可 以 很 容易 地 恢复 到 任何 运行 中 的 集群 ， 甚 至 并 非 产生 这 个 
快照 的 集群 。 使 用 快照 API 的 时 候 加 入 _restore 命令 ， 将 恢复 整个 集 
群 状 态 s 


curl -XPOST 


'localhost:9200/_snapshot/my_repository/first_snapshot/_restore'; 


AX o 


ION 


这 个 命令 将 恢复 指定 快照 ，first_snapshot 中 的 集群 数据 和 状 
通过 这 个 操作 ， 可 以 很 容易 地 将 集群 恢复 到 用 户 所 选 的 任何 时 间 


fo} 
INN 


和 之 前 看 到 的 快照 操作 类 似 ， 恢 复 操 作 人 允许 设置 
wait_for_completion 旗 标 ， 它 将 阻塞 用 户 的 HTTP 请 求 直 到 恢复 
ale 。 默 认 地 ， 恢 复 HTTP 请 求 是 立即 返回 的 ， 然 后 操作 是 在 
百人 台 运 行 。 


curl -XPOST 
‘localhost :9200/_snapshot/my_repository/first_snapshot/ 


_restore?wait_for_completion=true'; 


恢复 操作 还 有 额外 的 选项 ， 人 允许 用 户 将 某 个 索引 恢复 到 新 命名 的 
ps ies 复制 一 个 索引 ， 或 者 验证 某 个 恢复 索引 的 内 容 时 ， 这 一 
FM 


curl -XPOST 
‘localhost :9200/_snapshot/my_repository/first_snapshot/_restore' 
-d ' 


"indices": "logs_2014", =-- -将 从 快照 恢复 的 某 个 或 多 个 索引 

"rename_pattern": "logs_(.+)", =--- 对 于 竺 替换 的 索引 名 称 ， 定 义 其 匹配 
模式 

"rename_replacement": "a_copy_of_logs_$1" ~--- 重 命名 匹配 的 索引 


了 


给 定 这 个 命令 ， 只 会 恢复 名 为 l0gs2014 的 索引 ， 而 忽略 快照 中 
任何 其 他 的 索引 。 由 于 索引 的 名 称 和 用 户 定 义 的 rename_pattern 模 
式 相 匹配 ， 快 照 数 据 将 存放 于 一 个 名 为 a_copy_of 1ogs_2014 的 新 
索引 中 。 


当 恢 复 现 有 索引 的 时 候 ， 运 行 中 的 索引 实例 必须 被 关闭 。 恢 复 操作 完成 之 后 ， 它 会 扣 


开 这 个 关闭 的 索引 。 


你 已 经 理解 了 在 网 络 存储 的 环境 中 ， 快 照 API 如 何 运作 并 使 得 恢复 
成 为 可 能 。 接 下 来 探索 一 些 可 用 的 插件 ， 它 们 让 系统 可 以 在 云 供应 商 
的 环境 中 进行 备份 。 


11.4.4 ”使 用 资料 库 插件 


尽管 在 共享 文件 系统 上 进行 快照 和 恢复 是 很 常见 的 用 例 ， 
Elasticsearch 及 其 社区 还 是 为 儿 个 主流 的 云 服 务 供应 商 提 供 了 资料 库 的 
插件。 这 些 插件 允许 用 户 使 用 特定 供应 商 的 基础 架构 及 其 内 部 API， 来 
定义 目 己 的 资料 库 。 


1. Amazon S3 


对 于 部 署 在 亚马逊 网 络 服务 (AWS) 架构 上 的 应 用 ， 有 一 个 由 
Elasticsearch 团 队 维护 的 免费 S3 资 料 库 插 件 ， 可 从 GitHub 上 获取 。 


亚马逊 S3 资 料 库 插件 有 几 个 和 普通 配置 不 同 的 变量 ， 理 解 每 个 变 
量 所 控制 的 功能 古 很 关键 的 。 一 个 S3 资 料 库 可 以 如 此 创建 : 


curl -XPUT 'localhost:9200/_snapshot/my_s3_repository' -d '{ 
"type": "s3", ~--- 资 料 库 的 类 型 
"settings": { 


"bucket": "my_bucket_name", <--- 桶 存储 的 名 称 是 必须 的 ， 将 其 映 


射 到 你 的 S3 桶 存储 

"base_path" : "/backups", =--- 用 于 存储 资料 库 数据 的 S3 桶 之 目录 
路 径 

"access_key" : "THISISMYACCESSKEY"， -- - -默认 为 
cloud.aws.access_key 

"secret_key" : "THISISMYSECRETKEY", --- 默 认为 
cloud.aws.secret_key 

"max_retries" : "5", <---S3 出 现 错误 时 最 大 重 试 次 数 

"region": "us-west" ~--- 桶 存储 所 在 的 Amazon 区 域 

} 
}' 


一 旦 开局 ，S3 插 件 会 将 快照 存储 到 定义 好 的 桶 路 径 。 由 于 HDFS 和 
Amazon S3 是 兼容 的 ， 你 可 能 有 兴趣 阅读 下 一 部 分 ， 这 里 也 谈论 了 
Hadoop HDFS 资 料 库 的 插件 。 


2. Hadoop HDFS 


通过 这 个 简单 的 插件 ，HDFS 文 件 系统 可 以 用 作 快 照 和 恢复 的 资料 
i E ， 并 作为 更 通用 的 Hadoop 插 
项 目的 一 部 分 。 


在 Elasticsearch 集 群 上 ， 必 须 安装 本 插件 的 最 新 稳定 发 布 版 。 在 插 
件 的 目录 中 使 用 如 下 命令 ， 从 GitHub 直 接 安 装 期 望 的 插件 版 本 。 


bin/plugin -i elasticsearch/elasticsearch-repository-hdfs/2.x.y 


一 旦 安装 完毕 ， 就 可 以 开始 配置 插件 了 了 。HDFS 资 料 库 插 件 的 配置 
值 位 于 elasticsearch.yml 配 置 文件 中 。 这 里 列 出 一 些 重要 的 值 。 


repositories 
hdfs: 
uri: "hdfs://<host>:<port>/"  <---Hadoop 文件 系统 的 URI 
path: "some/path" =--- 快 照 存储 的 路 径 
load_defaults: "true" =--- 人 允许 加 载 Hadoop 的 默认 配置 
conf_location: "extra-cfg.xml" «<---Hadoop XML 配置 文件 的 名 称 


conf.<key> : "<Vvalue>" =---- 可 以 添加 到 Hadoop 配 置 文件 的 键 / 值 


现在 ， 配 置 好 了 HDFS 资 料 库 插 件 ， 系 统 将 使 用 和 前 面 一 样 的 快照 
API 进 行 执行 你 的 快照 和 恢复 操作 。 唯 一 的 区 别 在 于 ， 快 照 和 恢复 的 方 
法 将 来 自 Hadoop 的 文件 系统 。 


本 章 市 通过 快照 API 接 口 ， 探 索 了 几 种 不 同 的 方法 来 备份 并 恢复 集 
群 数据 和 状态 。 资 料 库 插件 为 公共 云 服 务 上 的 Elasticsearch 部 署 提 供 了 
便捷 。 在 网 络 环境 中 ， 快 照 API 提 供 了 简单 和 目 动 化 的 方法 来 存储 备份 
数据 ， 以 便于 灾难 之 后 的 恢复 。 


11.5 “小 结 


本 章 我 们 已 经 传达 了 不 少 信息 ， 主 要 聚焦 在 管理 和 优化 
Elasticsearch 集 群 。 现 在 ， 你 已 经 深入 理解 了 如 下 的 概念 ， 这 里 来 总 结 
Spa 


索引 模板 使 系统 可 以 目 动 地 创建 拥有 共同 设置 的 索引 。 
。 默认 映射 为 索引 中 重复 的 相似 映射 创建 提供 了 便利 。 
别名 允许 使 用 单个 名 字 碍 询 多 个 索引 ， 因 此 让 你 可 以 按 需 分 割 数 


据 。 

集群 健康 的 API 提 供 了 一 个 简单 的 方式 来 测量 集群 、 节 点 和 分 片 的 
整体 健康 状态 。 

使 用 慢 索 引 和 慢 查 询 的 日 志 ， 有 助 于 诊断 可 能 影响 集群 性 能 的 索 

引 和 查询 操作 。 

充分 理解 JVM 虚 拟 机 、Lucene 和 Elasticsearch 是 如 何 分 配 和 使 用 内 
存 的 ， 可 以 预防 操作 系统 将 进程 交换 到 役 盘 。 

快照 API 为 使 用 网 络 存储 的 集群 提供 了 便捷 的 备份 和 恢复 方法 ， 资 
料 库 揪 件 将 这 个 功能 扩展 到 了 共用 的 云 服务 之 上 。 


附录 A “处 理 地 理 空 间 的 数据 


地 理 空间 的 数据 使 得 搜索 应 用 可 以 感知 位 置 。 例 如 ， 搜 索 在 你 身 
边 举 办 的 活动 、 发 现 特定 区 域内 的 餐厅 ， 或 者 看 看 哪个 公园 的 区 域 和 
市 中 心 的 区 域 有 重合 ， 这 些 时 候 部 需要 人 处理 地 理 空间 的 数据 。 


在 这 些 场景 下 ， 我 们 将 活动 和 餐厅 称 为 位 置 点 (point) ， 因 为 它 
们 实际 上 是 地 图 上 的 点 。 我 们 将 区 域 放 入 通用 的 形状 (shape) 范畴 ， 
如 国家 或 地 图 上 画 出 来 的 矩形 。 地 理 空间 的 搜索 将 处 理 位 置 点 、 形 状 
以 及 它们 之 间 不 同 的 关系 。 


。 两 个 位 置 点 之 间 的 距离 一 一 如 果 你 所 在 的 地 方 是 一 个 位 置 点 ， 而 
游泳 池 在 其 他 的 位 置 点 ， 那 么 融 可 以 搜索 最 近 的 游 访 池 。 或 者 ， 
可 以 只 过 滤 出 离 你 比较 近 的 游泳 池 ， 或 使 用 聚集 来 看 看 多 少 游泳 
THBP URE LO‘ EDA, 多 少 游 泳池 离 你 在 10~20 公 里 的 距离 ， 等 


一 个 形状 包含 一 个 位 置 点 如 果 在 地 图 上 选择 某 个 区 域 ， 比 如 
你 工作 的 区 域 ， 你 可 以 只 过 滤 出 该 区 域内 的 餐厅 ， 或 者 使 用 
geo_bounds 聚集 来 发 现 一 组 位 置 点 属于 哪个 区 域 。 

。 eee ee 例如 ， 可 以 搜索 城市 中 心里 的 公 


本 附录 将 展示 如 何 根 据 地 图 上 参考 点 间 的 距离 ， 搜 索 、 排 序 并 案 
集 Elasticsearch 的 文档 。 读 者 还 会 学 习 如 何 搜索 落 入 某 个 矩形 的 位 置 
点 ， 以 及 如 何 搜索 和 地 图 上 特定 区 域 重 到 的 形状 。 


Al 位 置 所 及 其 之 间 的 距离 


为 了 搜索 位 置 点 ， 首 先 需 要 索引 它们 。Elasticsearch 有 一 个 地 理 点 
(geo point) 的 特殊 类 型 。 通 过 查看 mapping.json， 将 看 到 一 个 例子 展 
示 如 何在 代码 样 例 中 使 用 它 。 


每 个 活动 都 有 一 个 location 字段 ， 这 是 一 个 包括 了 
geolocation 字段 的 对 象 ， 而 地 理 位 置 字段 的 类 型 为 地 理 点 


geo_point 。 


"geolocation" : { "type" "geo_point"} 


如 有 果 地 理 点 类 型 定义 在 你 的 映射 中 ， 就 可 以 通过 给 定 纬度 和 经 度 
来 定义 位 置 点 ， 如 populate.sh 所 示 。 


"geolocation": "39.748477, -104.998852" 
4 


也 可 以 使 用 属性 、 数 组 或 者 地 理 散 列 来 提供 维度 和 经 度 。 这 些 并 不 改变 位 置 点 索引 的 
方式 ; 只 是 为 了 让 ] 户 方便 ， 按 照 自己 喜欢 的 方式 来 进行 。 可 以 在 这 里 查看 更 多 细 市 : 


www.elastic.co/ guide/en/elasticsearch/reference/current/mapping-geo- point-type.html ° 


将 地 理 点 作为 活动 文档 (全 书 使 用 的 数据 集 ) 的 一 部 分 进行 索 
引 ， 使 得 用 户 可 以 按照 如 下 方式 为 搜索 添加 距离 条 件 。 


。 给 定位 置 点 ， 按 照 和 该 点 的 距离 对 结果 进行 排序 一 一 这 使 得 和 用 


户 最 近 的 活动 优先 出 现 。 

。 根据 距离 过 滤 结 果 一 一 这 让 用 户 可 以 仅仅 展示 一 定 距 离 范 围 内 的 
活动 。 例 如 ， 距 用 户 100 公 里 。 

。 根据 距离 对 结果 进行 聚集 一 一 这 人 允许 用 户 创建 范围 的 桶 。 例 如 ， 
可 以 获得 距 用 户 100 公 里 内 活动 的 数量 ， 距 用 户 100~200 公 里 活动 
的 数量 ， 等 等 


A2 在 排序 条 件 中 添加 距离 


还 是 使 用 本 书 主 章节 中 的 get- ogee 让 我 们 假设 用 户 的 坐 
标 是 (40.0, 105.0) ， 而 且 用 户 需 要 发 现 身 边关 于 Elasticsearch 的 活 


动 。 为 了 达到 这 个 目的 ， 需 要 添加 一 个 称 为 _geo_distance 的 排序 
条 件 ， 并 在 其 中 设置 用 户 现在 的 位 置 ， 如 代码 清单 A-1 所 示 。 


代码 清单 A-1 按照 距离 对 活动 进行 排序 


curl 'localhost:9200/get-together/event/_search?pretty' -d '{ 
"query": { <--- 查 询 在 查找 标题 中 的 “elasticsearch” 关 键 字 
"match": { 
"title": "elasticsearch" 


ty 


"sort" : [ 


"_geo_distance" : { <---_geo_distance 的 排序 条 件 


"location.geolocation" : "40, -105", <--- 你 现在 的 位 
"order" : "asc", ~- - -升序 排列 使 得 更 靠近 的 活动 排 在 更 
"unit" : "km" --- -每 个 命中 将 包含 一 个 排序 值 ， 表 示 和 用 户 之 间 的 距离 


有 多 少 公里 


用 户 也 可 以 指定 包含 多 个 参考 点 的 数组 ， 然 后 使 用 mode 来 决定 
排序 值 是 文档 中 的 点 和 这 些 参考 点 之 间距 离 的 nin 、max 还 是 avg 
值 。 


"geo distance"” : { 
"location.geolocation" : ["40,-105", "42,-107"], 


"order" : "asc", 
"unit" : "km", 
"mode" : "avg" 


一 点 很 有 用 处 ， 例 如 ， 当 你 有 多 个 兴趣 点 的 时 候 ， 想 找 一 家 和 
BUMBLEBEE 括 的 酒店 。 


同时 使 用 距离 和 其 他 条 件 进 行 排序 


当 上 距离 是 唯一 条 件 的 时 候 ， 像 前 面 那样 的 搜索 是 很 有 用 的 。 如 果 
想 在 排序 公式 中 引入 其 他 的 评判 条 件 ， 如 文档 本 号 的 得 分 ， 可 以 使 用 
第 6 章 介 绍 的 function_score 查询 。 以 这 样 的 方式 ， 可 以 根据 查询 
的 初始 分 数 加 上 和 你 兴趣 点 之 间 的 距离 ， 来 生成 一 个 最 终 的 得 分 。 


代码 清单 A-2 展 示 了 这 样 的 查询 : 活动 的 得 分 随 着 它 离 你 的 距离 
o 。 在 100 公 里 的 时 候 ， 原 始 的 得 分 将 被 减 半 
decay=0.5) œ 


代码 清单 A-2 ” 当 计 算得 分 的 时 候 ， 考 虑 距离 的 因素 


curl 'localhost:9200/get-together/event/_search?pretty' -d '{ 
"query": { 
"function_score": { 
"query": { <---- 查 找 ^elasticsearch” 的 查询 返回 了 一 个 分 数 
"match": { 
"title": "elasticsearch" 
; } 
"linear": { ----MAWJA HAARR, RERA NACE A ERIE 


"location.geolocation": { 
"origin": "40, -105", 
"scale": "100km", 
"decay": 0.5 


用 户 可 能 很 容易 想到 这 个 脚本 优化 了 两 者 : 和 查询 的 相关 性 以 及 
地 理 空 间 的 维度 。 尽 管 function_score 查询 真 的 非常 强大 ， 运 行 
代码 清单 A-2 所 示 的 脚本 是 非常 影响 性 能 的 ， 尤 其 是 有 很 多 文档 的 时 
候 ， 因 为 它 必 须要 计算 出 发 点 和 所 有 匹配 文档 之 间 的 距离 。 更 快 的 方 
法 是 ， 按 照常 理 搜索 你 的 活动 ， 然 后 只 过 滤 出 在 一 定 范围 内 的 结果 。 


A3 ”基于 距离 的 过 滤 和 素 集 


_， 主 我 们 假设 用 户 在 查找 吴 边 一 定 距离 范围 内 的 活动 ， 如 图 A-1 所 
ZR œ 
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图 A-1 你 可 以 过 滤 出 和 指定 位 置 相 距 一 定 范围 内 的 点 


为 了 过 滤 这 些 活动 ， 需 要 使 用 geo_distance 过 滤器 。 它 所 需要 
的 参数 是 你 的 参考 位 置 和 距离 限制 如 下 。 


% curl 'localhost:9200/get-together/event/_search?pretty' -d '{ 
"query": { 
"filtered": { 
"filter": { 
"geo_distance": { 
"distance": "50km", 


"location.geolocation": "40.0, -105.0" 


在 默认 的 模式 中 ，Elasticsearch 将 计算 点 (40.0,-105.0) 和 每 个 活动 
举办 地 之 间 的 距离 ， 并 只 返回 那些 距离 小 于 50 公 里 的 。 用 户 可 以 通过 
和 distance 参数 并 列 的 distance_type 参数 ， 来 设置 距离 计算 的 
方式 。 一 共有 3 个 选项 。 


e sloppy_arc (默认 的 ) 一 一 它 通 过 圆 弧 的 快速 近似 来 计算 了 两 
点 之 间 的 距离 。 对 于 多 数 情况 而 言 ， 这 是 个 很 好 的 选择 。 

。 arc -人 它 真 实地 计算 了 圆 踊 ， 使 得 其 比 sLloppy_arc 更 慢 不 过 
更 精准 。 请 注意 用 户 也 并 未 获得 100% 的 准确 率 ， 因 为 地 球 不 是 完 
美的 圆 形 。 当 然 ， 如 果 需 要 精确 度 ， 它 还 是 最 佳 选 择 。 

。 plane 一 一 这 是 最 快 的 但 是 也 是 最 不 准确 的 实现 ， 因 为 它 假 设 两 
点 之 间 的 表面 是 平 的 。 当 文档 很 多 而 距离 又 限制 到 很 小 的 范围 
时 ， 这 个 选项 可 以 运行 地 很 好 。 


性 能 的 优化 并 不 限于 距离 计算 的 算法 。 过 滤 右 geo_distance 还 
有 另 一 个 参数 ， 称 为 “optimize_bbox”。 这 里 bbox 表示 边界 盒 
(bounding box) ， 它 是 你 定义 在 地 图 上 的 和 矩形， 包含 了 所 有 的 位 置 点 
和 感 兴趣 的 区 域 。 


使 用 optimize_bbox 将 首先 检查 活动 是 否 和 一 个 方形 匹配 ， 而 
该 方形 包含 了 描述 距离 范围 的 圆圈 。 如 果 匹 配 ，Elasticsearch 过 滤器 束 
进一步 计算 实际 距离 。 


如 条 想 问 边界 盒 优化 是 否 值得 一 坛 ， 那 么 你 将 很 愉 司 地 发 现 多 数 
情况 下 是 值得 的 。 验 证 茶 个 总 是 否 在 边界 盒 之 内 要 比 计算 距离 并 和 你 
的 限制 作 比 较 要 快 得 多 。 


这 个 参数 也 是 可 配置 的 。 可 以 将 optimize_bbox 设置 为 none 
， 然 后 检查 查询 时 间 是 否 变 快 或 者 变 慢 。 其 默认 的 值 是 memory ， 可 
以 将 它 设置 为 jndexed ° 


你 是 否 好 奇 memory 和 indexed 之 间 的 区 别 是 什么 ? 在 下 个 章节 
的 开始 我 们 会 讨论 这 个 不 同 之 处 。 如 果 你 并 不 好 奇 也 不 想 被 性 能 的 优 
化 所 困扰 ， 那 么 使 用 默认 值 吧 ， 对 于 多 数 情况 而 言 就 它 已 经 很 好 了 。 


1. 距离 范围 过 滤器 
这 里 geo_distance_range 过 滤器 允许 用 户 搜索 和 用 户 相 距 50 


一 100 公 里 的 活动 。 除 了 它 的 from 和 to 距离 选项 ， 它 还 接受 和 
geo_distance 过 滤器 一 样 的 参数 。 


"filter": { 
"geo_distance_range": { 
"from": "50km", 
"to": "100km" 
f 7 


"location.geolocation": "40.0, -105.0" 
} 
} 


2. 距离 范围 的 聚集 


由 于 对 附近 发 现 的 结果 并 不 满意 〈 比 如 ， 活 动 举办 的 日 期 还 很 遥 
i) ， 用 户 可 能 会 搜索 和 参考 点 相距 更 远 的 活动 。 这 种 情况 下 ， 对 于 
用 户 而 言 预 和 完了 解 每 个 范围 有 和 多少 活 动 可 能 是 很 方便 的 ， 如 50 公 里 
内 、50~-100 公 里 、100~-200 公 里 等 。 


对 于 这 个 用 例 ，geo_distance_range 聚集 就 很 方便 。 它 和 第 
7 章 你 所 见 到 的 range、date_range 聚集 看 上 去 很 相似 。 这 个 例子 
中 ， 用 户 将 设置 参考 点 (origin) 和 所 需 的 距离 (ranges) 。 


"aggs" g { 
"events_ranges" : { 
"geo_distance" : { 
"field" : "location.geolocation", 
"Origin" : "40.0, -105.0", 
"unit": "km", 
"ranges" : [ 


{ "to" : 100 }, 
{ "from" : 100, "to" : 5000 }, 
{ "from" : 5000 } 


Elasticsearch 将 返回 对 于 每 个 距离 range ， 它 发 现 了 多 少 的 活动 。 


"aggregations" : { 


"events_ranges" : { 
"buckets" : [ { 
"key" i "*-100.0", 
"from" : 0.0, 
"to" : 100.0, 


"doc _count" : 8 
} {í 
"key" : "100.0-5000.0", 


"from" : 100.0, 
"to" : 5000.0, 
"doc_count" : 3 

}, { 
"key" : "5000.0-*", 
"from" : 5000.0, 
"doc_count" : 3 

} ] 

} 


ERT, RTEA TUMRA RR RHR RME o 下 面 
来 看 看 如 何 使 用 形状 来 搜索 并 聚集 位 置 点 。 


AA 某 个 所 属于 某 个 形状 吗 


形状 ， 特 别 是 矩形 ， 很 容易 在 地 图 上 画 出 来 ， 如 图 A-2 所 示 。 搜 
索 形 状 中 的 点 比 计算 距离 要 快 得 多 ， 因 为 在 形状 中 搜索 只 需要 将 点 的 
坐标 和 形状 几 个 角 的 坐标 进行 比较 。 


图 A-2 ”可 以 根据 某 个 点 是 否 落 进 地 图 上 的 矩形 来 过 滤 位 置 点 


地 图 上 有 3 种 形状 可 以 进行 位 置 点 的 匹配 ， 如 果 考 虑 全 书 使 用 的 
get-together 例 子 ， 可 以 将 位 置 点 对 应 到 举办 的 活动 。 


。 边界 盒 (FE) 这 种 执行 速度 是 很 快 的 ， 也 有 足够 的 灵活 
性 ， 人 允许 画 出 任何 矩形 。 

。 多 边 形 一 一 这 允许 画 一 个 更 精确 的 形状 ， 但 是 要 求 用 户 画 一 个 多 
边 形 是 很 难 的 ， 而 且 多 边 形 越 复杂 ， 搜 索 执行 得 越 慢 。 

。 地理 散 列 ( 散 列 定义 的 正方 形 ) 这 是 灵活 性 最 小 的 ， 因 为 散 
列 都 症 固 定 的 。 但 是 ， 稍 后 将 看 到 ， 它 们 通 第 十 3 种 方式 之 中 最 快 
的 实现 方式 。 


A.4.1 边界 盒 


为 了 搜索 某 个 点 是 否 落 进 一 个 矩形 ， 可 以 使 用 bounding box 过 
滤 釉 。 如 果 应 用 程序 允许 用 户 在 地 图 上 点 击 一 个 位 置 定义 窍 形 的 一 
fi, AAA TMB RE DOTA EAA, AWARE 
很 有 用 处 。 结 采 可 能 和 图 A-2 的 矩形 类 似 。 


为 了 运行 bounding box Wika, TEA LAMA RAYA 
标 值 来 描述 和 矩形。 


% curl 'localhost:9200/get-together/event/_search?pretty' - 
"query": { 
"filtered": { 
"filter": { 
"geo_bounding_ box": { 
"location.geolocation": { 
"top_left": "40, -106", 


"bottom right": "38, -103" 


bounding box 过 滤器 的 默认 实现 方式 是 将 点 的 坐标 加 载 到 内 存 
中 ， 然 后 将 它们 和 所 提供 的 位 置 点 进行 比较 。 这 和 将 
geo_bounding_box 的 type 类 型 选项 设置 为 nemory 是 等 价 的 。 


用 户 可 以 使 用 不 同 的 方案 ， 将 type 设置 为 indexed ， 那 么 
Elasticsearch 会 使 用 范围 过 小 姨 进 行 同 样 的 比较 ， 束 像 在 第 4 章 学 习 到 
那样 。 为 了 使 这 种 实现 方式 能 奏效 ， 需 要 在 字段 中 索引 点 的 纬度 和 经 
度 ， 而 默认 是 没有 开启 这 项 的 。 


为 了 开局 纬度 和 经 度 的 索引 ， 需 要 在 映射 中 将 lat_lon 设置 为 
true, itgeolocation 字段 定义 看 上 去 是 这 样 : 


"geolocation" : { "type" : "geo_point", "lat_lon": true } 


如 果 如 此 修改 了 代码 样 例 中 的 mappingjson， 需 要 再 次 运行 populate.sh 脚 本 来 重新 索引 
半 例 数据 集 ， 让 修改 生效 。 


这 个 indexed 实现 方式 是 比较 快 的 ， 但 是 索引 的 纬度 和 经 度 使 用 
户 的 索引 变 得 更 大 。 此 外 ， 如 果 每 篇 文档 有 更 多 的 地 理 位 置 点 (如 和 餐 
饮 连 锁 店 的 位 置 点 数组 ， 那 么 indexed 的 实现 方式 就 无 法 有 效 地 运 
作 。 


co 


如 果 想 搜索 和 一 个 比 矩 形 更 复杂 的 形状 相 匹 配 的 点 ， 可 以 使 用 geo_polygon Hië 
器 。 它 允许 用 户 输入 描述 多 边 形 的 一 个 点 数组 。 关 于 geo_polygon 过 滤器 的 更 多 
以 参考 : www.elastic.co/ guide/en/elasticsearch/reference/current/query-dsl-geo-polygon- 
filter.html ° 


dt 
z| 


如 果 使 用 geo_bounding_box 过 滤器 来 搜索 落 进 这 个 区 域 的 文 
档 ， 那 么 还 可 以 使 用 geo_bounds 聚集 来 做 相反 的 事情 一 获取 包含 
全 部 搜索 结果 点 的 边界 盒 。 


"aggs" : { 
"events_box": { 
"geo_bounds": { 
"field": "location.geolocation" 


} 
t 


# returns 
"aggregations" : { 
"events_box" : { 
"bounds" : { 
"top_left" : { 
"lat" : 51.524806, 
"lon" : -122.399801 
ty 
"bottom_right" : { 
"lat" : 37.787742, 
"lon" : -0.099095 


A.4.2 ”地 理 散 列 


还 配点 和 形状 的 时 候 ， 最 后 一 个 可 用 的 方法 是 匹配 地 理 散 列 
(geohash) 的 单元 格 。 地 理 BUI, 7 Gustavo Niemeyer 在 建造 
geohash.org 网 站 时 发 明 的 系统 。 


1. 地 理 散 列 单元 的 过 滤器 


由 于 地 理 散 列 单元 定义 的 方式 ， 地 图 上 的 每 个 位 置 点 都 属于 无 限 
多 的 地 理 单元 格 ， 如 d + dO ` dob 等 。 给 定 一 个 这 样 的 单元 格 ， 
Elasticsearch 可 以 告诉 用 户 哪些 点 和 这 个 geohash_cell 过 小 器 相 匹 
Hic ° 


% curl 'localhost:9200/get-together/event/_search?pretty' -d '{ 


"query": { 


"filtered": { 
"filter": { 
"geohash_cell": { 
"location.geolocation": "9xj" 
} 
} 
} 


尽管 地 理 散 列 单元 格 是 矩形 的 ， 这 个 过 滤器 和 边界 盒 过 滤器 的 工 
作 方 式 还 是 有 所 不 同 。 首 先 ， 地 理 点 需要 将 描述 它们 的 地 理 散 列 索引 
下 来 ， 如 9xj6 。 然 后 ， 还 必须 索引 其 散 列 的 全 部 N 元 语法 ， 比 如 9 、 
9x、9xj 和 9xj6 ， 它 们 描述 了 父 奉 的 单元 格 。 当 运行 过 滤器 的 时 
候 ， 系 统 将 查询 中 的 散 列 和 点 被 索引 的 散 列 进行 匹配 。 这 使 得 
geohash cell 过 滤器 的 实现 与 第 4 章 所 见 到 的 terms 过 滤器 的 实现 


方式 非常 相似 ， 因 此 运行 速度 很 快 。 


为 了 开启 在 地 里 点 中 的 地 里 散 列 索引 ， 需 要 在 映射 中 将 geohash 
设置 为 true。 为 了 索引 散 列 的 父 非 〈 侧 边 N 元 语法 ) ， 将 
geohash_prefix 也 设置 为 true 。 索 引 前 级 将 帮助 过 滤器 运行 得 更 
快 ， 因 为 它们 将 在 已 经 索引 过 的 前 级 上 进行 精确 匹配 ， 而 不 是 执行 更 
加 消耗 性 能 的 通 配 搜索 。 


由 于 一 个 单元 格 永远 不 可 能 完美 地 描述 一 个 位 置 点 ， 必 须 选 择 和 矩形 有 多 精确 (或 者 有 
ZK) ° Precision 默认 设置 是 12 ， 它 可 以 创建 9xj64sswpkdq 这 样 字符 长 度 为 12 的 
散 列 ， 精 确 度 在 几 厘米 。 由 于 用 户 也 索引 了 全 部 的 父辈 ， 可 能 希望 牺牲 一 点 精确 度 来 换取 
更 佳 的 索引 大 小 以 及 搜索 性 能 。 用 户 也 可 以 通过 距离 (如 16m ) 来 设置 精确 度 ， 而 
Elasticsearch 将 设置 相应 的 数据 值 。 


2. 地 理 散 列 格 的 聚集 


就 像 可 以 聚集 距离 一 样 ， 你 还 可 以 通过 文档 的 地 理 散 列 单元 格 ， 
针对 和 搜索 请 求 相 匹配 的 文档 进行 聚 类 。 这 些 地 理 散 列 单元 的 数量 是 
通过 精确 度 precision 的 选项 来 配置 。 


"aggs" g { 
"events_clusters": { 
"geohash_grid": { 
"field": "location.geolocation", 
"precision": 5 


"events_clusters" : 
"buckets" : [ { 
"key" : "9xj64", 
"doc_count" : 6 
} { 
"key" : "gcpvj vy 
"doc_count" : 3 


BI LAN ee A Oa AOR, EE te 
很 重要 的 ， 因 为 在 Elasticsearch 中 ， 地 理 散 列 是 表示 形状 的 默认 方式 。 
下 一 市 将 解释 形状 古 如 何 使 用 地 理 散 列 的 。 


A.5 ”形状 的 相交 


Elasticsearch 可 以 索引 有 形状 (如 展示 公园 区 域 的 多 边 形 ) 的 文 
档 ， 也 可 以 根据 公园 是 否 和 其 他 形状 (如 城市 中 心 ) 重 车 来 过 滤 文 
档 。 默 认 情 况 下 ， 系 统 是 通过 之 前 章 廊 讨 论 的 地 理 散 列 来 实现 的 。 其 
过 程 如 图 A-3 所 示 : 每 个 形状 被 近似 为 《我 们 稍 后 讨论 精确 度 ) 地 理 
散 列 所 定义 的 一 组 矩形 。 搜 索 的 时 候 ，Elasticsearch 将 很 容易 地 发 现 某 
个 形状 是 否 至 少 有 一 个 地 理 散 列 和 男 一 个 形状 的 地 理 散 列 重合。 
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图 A-3 ”使 用 地 理 散 列表 示 的 形状 。 搜 索 和 形状 1 相交 的 形状 时 ， 将 返回 形状 2 


A.5.1 索引 形状 


让 我 们 假设 有 一 个 公园 的 形状 是 有 4 个 角 的 多 边 形 。 为 了 索引 这 个 
形状 ， 用 户 首先 要 为 该 形状 字段 定义 一 个 映射 (将 其 称 为 area ) , 
而 类 型 则 为 geo_shape 。 有 了 这 个 上 映射， 就 可 以 开始 索引 文档 了 : 
每 篇 文档 的 area 字段 需要 指出 形状 的 type 是 polygon ， 并 提供 多 
边 形 的 coordinates 数组 ， 如 代码 清单 A-3 所 示 。 


代码 清单 A-3 索引 一 个 形状 


curl -XPUT localhost:9200/geo =--- 创 建 一 个 新 的 索引 来 索引 公园 区 域 
curl -XPUT localhost:9200/geo/_mapping/park -d ' <--- 设 置 公园 的 映 
射 。 地 理 形状 geo_shape 将 被 索引 到 区 域 字段 area 
"properties": { 
"area": { "type": "geo_shape"} 


curl -XPUT localhost:9200/geo/park/1 -d '{ 


"area": { =---- 一 个 多 边 形 被 索引 到 区 域 字 段 
"type": "polygon", 
"coordinates": [ <<--- 该 多 边 形 各 个 角 的 坐标 值 
[[45, 30], [46, 30], [45, 31], [46, 32]] -=--- -描述 外 边界 的 第 一 
个 数组 。 可 以 选择 性 地 添加 其 他 数组 来 定义 多 边 形 的 当中 的 洞 


F 


” 多边 形 不 是 Elasticsearch 支持 的 唯一 形状 。 用 户 可 以 在 单个 形状 中 包含 多 个 多 边 形 
(type:multipolygon ) 。 还 有 point 和 multipoint 类 型 、 一 个 或 多 个 划 线 


(linestring, multilinestring) 、 和 矩形 (envelope) 等 。 


一 个 形状 占据 索引 多 少 的 空间 ， 很 大 程度 上 取决 于 你 如 何 索 引 
它 。 由 于 地 理 散 列 只 能 近似 大 多 数 的 形状 ， 因 此 完全 由 你 来 决定 地 理 
散 列 矩形 有 多 细 。 散 列 矩 形 越 小 ， 解 析 度 /近似 度 就 越 好 ， 但 是 索引 大 
小 就 会 增加 ， 因 为 更 小 的 散 列 单元 格 的 字符 串 更 长 ， 而 且 更 重要 的 是 
还 有 更 多 的 父辈 N 元 语法 要 索引 。 折 中 考虑 ， 用 户 要 在 映射 中 设置 一 
‘precision 参数 ， 其 默认 值 是 50m 。 这 意味 着 最 糟糕 的 情况 下 ， 
误差 是 50m ° 


A5.2 过滤 重 释 的 形状 


在 公园 的 文档 被 索引 之 后 ， 我 们 假设 用 户 有 另 一 个 四 角 的 形状 代 
表 了 市 中 心 。 为 了 查看 哪些 公园 至 少 有 部 分 在 市 中 心 ， 要 使 用 地 理 形 
状 过 滤器 geo shape 。 用 户 可 以 在 过 滤器 中 提供 市 中 心 的 形状 定 
义 ， 如 代码 清单 A-4 所 示 。 


代码 清单 A-4 地理 形状 过 滤器 geo shape 的 例子 


curl localhost:9200/geo/park/_search?pretty -d '{ 


"query": { 
"filtered": { 
"filter": { 


"geo_shape": { 
"area": { <<--- 被 搜索 的 字段 
"shape": { =--- 在 查询 中 你 将 提供 一 个 形状 
"type": "polygon", =--- 形 状 提供 的 方式 和 你 索引 时 候 的 方式 


"coordinates": [ 
[[45, 30.5], [46, 30.5], [45, 31.5], [46, 32.5]] 
] 
} 


如 有 果 之 前 使 用 了 代码 清单 A-3 的 代码 ， 那 么 应 该 看 到 被 索引 的 形 
状 匹配 上 了 “。 将 查询 中 的 坐标 修改 为 [[95，30.5]，[96，30.5]， 
[95，31.5]，[96，32.5]] ， 那 么 就 不 会 返回 任何 命中 结果 ， 
为 没有 共同 的 地 理 散 列 ， 也 就 是 两 个 形状 没有 重合 的 部 分 。 


地 理 散 列 是 很 强大 的 ， 因 为 它们 提供 了 和 全 书 所 讨论 的 term Æ 
询 一 样 的 底层 机 制 ， 来 进行 地 理 空 间 的 搜索 。 尽 管 地 理 散 列 只 是 某 个 
点 或 某 个 形状 的 近似 ， 但 是 比 起 本 附 孙 之 前 介绍 的 距离 计算 或 者 经 纬 
度 范围 过 滤 ， 使 用 地 理 散 列 的 处 理 通常 都 要 更 快 一 些 。 


附录 B 插件 


插件 是 扩展 或 增强 Elasticsearch 原 有 功能 的 强 有 力 方式 。 
Elasticsearch 的 默认 部 署 没有 安装 任何 的 插件 ， 不 过 在 GitHub 上 有 很 多 
揪 件 可 以 供用 户 下 载 并 试用 。 


本 附 隶 回 用 户 展示 了 如 何 安装 、 访 问 并 管理 Elasticsearch 的 插件 。 


B.1 使 用 插件 进行 工作 


插件 分 为 两 个 类 型 站 点 (site) 插件 和 代码 (code) 播 件 。 站 
点 手 件 没有 提供 额外 的 功能 ， 它 只 是 提供 了 一 个 由 Elasticsearch 服 务 所 
文 持 的 网 页 。 站 点 搬 件 的 一 些 例子 包括 elasticsearch-head 插 
件 、elasticsearch-kopf、bigdesk、elasticsearch-hq 和 
whatson“。 例 如 ， 你 可 能 还 记得 第 2 章 的 截屏 ， 如 网 B-1 所 示 ， 它 通过 
kopf 插件 显示 了 分 片 配 置 到 了 两 个 不 同 的 节点 上 。 
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图 B-1 kopf 插件 的 例子 


从 图 B-1 可 以 看 出 kopf 插件 显示 了 关于 Elasticsearch 集 群 的 信息 ; 
Elasticsearch 并 没有 运行 任何 新 的 代码 ， 也 没有 改变 服务 器 上 的 任何 行 


为 。 相 对 于 站 点 插件 的 古代 码 插件 。 


代码 插件 (code plugin) 是 包含 了 VM 代码 的 插件 ， 
Elasticsearch 将 会 执行 这 些 代 码 ;， 它 们 可 包括 为 Elasticsearch 增 加 功能 
的 插件 ， 如 AWS 插 件 ， 它 增加 了 将 索引 快照 备份 到 Amazon S3 的 功 
能 。 还 有 ICU 分 析 揪 件 ， 它 可 以 在 分 析 过 程 中 更 好 地 处 理 不 同 语言 的 
文本 字符 。 还 有 一 些 插件 甚至 会 替换 Elasticsearch 内 部 的 模块 (如 分 
片 ) 的 分 发 右 和 发 现 机 制 。 


代码 插件 的 一 些 例子 包括 elasticsearch-aws 和 
elasticsearch-azure 插件 ， 以 及 多 个 elasticsearch-lang- 
* 插件 ， 如 elasticsearch-lang-python 和 elasticsearch- 
lang-ruby ， 它 们 增加 了 对 和 额外 脚本 语言 的 支持 。 还 有 一 些 插 件 增 
加 了 和 查询 的 功能 ， 如 附加 的 高 亮 右 和 新 型 的 聚集 操作 。 由 于 代码 插件 
内 十 一 六 jar 文件 ， 它 可 以 让 程序 开发 者 为 Elasticsearch 添 加 任何 功 
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我 们 说 插件 分 为 两 种 类 型 ， 其 实 也 不 完全 准确 。 代 码 插件 可 能 
包含 了 Elasticsearch 用 于 交互 界面 的 基本 HTML、 图 片 和 JavaScript 文 
件 。 这 种 插件 的 一 个 例子 就 是 elasticsearch- marvel 插件 

(www.elastic.co/products/ marvel/) ， 它 包括 了 收集 和 存储 度量 指标 的 
r 的 部 分 ， 也 束 是 展示 Elasticsearch 中 数据 分 析 
EHYS TNA ° 


现在 我 们 已 经 提 及 了 两 种 类 型 的 Elasticsearch 插 件 ， 下 面 来 讨论 如 
IME AE ° 


B.2 ”安装 插件 


如 采 要 使 用 一 个 插件 ， 首 先 要 安 狠 它 。 搬 件 来 源 的 形式 有 很 多 ， 
但 古 它 们 通常 是 .zip 文 件 。 用 户 可 以 选择 将 一 个 .zip 文 件 手动 解压 到 插 
件 的 目录 ， 或 者 也 可 以 使 用 bin/plugin 工 具 对 互联 网 下 载 的 插件 或 本 地 
的 zip 文 件 进 行 安 狠 。 


让 我 们 先 从 安装 elasticsearch-head 插件 开始 ， 如 代码 清单 
B-1 所 示 。 用 户 将 使 用 Elasticsearch 自 种 的 插件 shell 脚 本 来 安装 这 个 插 


件 。 在 Windows 控 作 系 统 中 ， 可 以 使 用 plugin.bat 脚 本 来 安装 插件 。 


代码 清单 B-1 安装 elasticsearch-head 插 件 


$ cd /path/to/elasticsearch 

$ ls 

LICENSE.txt NOTICE.txt README.textile bin config lib logs 

$ bin/plugin -install mobz/elasticsearch-head --- 使 用 bin/plugin 
脚本 安装 插件 
-> Installing mobz/elasticsearch-head... 
Trying https://github.com/mobz/elasticsearch- 


head/archive/master.zip... 
Downloading 


Installed mobz/elasticsearch-head into /data/elasticsearch- 
1.5.1/plugins/head 

Identified as a _site plugin, moving to _site structure ... 
Elasticsearch 识别 出 插件 是 一 个 站 点 插件 


从 这 里 可 以 看 到 插件 脚本 从 github.com 下 载 了 该 插件 ， 并 将 
elasticsearch-head 插件 安装 到 plugin/head 目 录 中 。 系 统 也 识别 
出 来 插件 属于 站 点 插件 的 类 型 。 


用 户 可 以 使 用 市 上 -1 或 --list 参数 的 插件 脚本 ， 列 出 已 经 安装 
的 插件 ， 如 代码 请 单 B-2 所 示 。 


代码 清单 B-2 列 出 已 经 安装 的 插件 


$ bin/plugin --list 
Installed plugins: 


- head 


在 这 个 例子 中 ， 安 装 了 从 GitHub 自 动 下 载 的 站 点 插件 ， 不 过 还 可 
以 有 其 他 的 方式 来 安 泌 插 件 。 不 带 任 何 参 数 运 行 bin/plugin 脚 本 ， 它 将 
回 用 户 展示 所 有 可 用 的 选项 ， 如 代码 清单 B-3 所 示 。 


代码 清单 B-3 ”插件 脚本 可 用 的 选项 


$ bin/plugin 


Usage: 


-u, --url [plugin location] : Set exact URL to download 
the plugin 

from 

-i, --install [plugin name] : Downloads and installs 
listed 

plugins [*] 

-t, --timeout [duration] : Timeout setting: 30s, ím, 
Ls 

(infinite by default) 

-r, --remove [plugin name] : Removes listed plugins 

-l, --list : List installed plugins 

-V, --verbose : Prints verbose messages 

-S, --Silent : Run in silent mode 

-h, --help : Prints this help message 


[*] Plugin name could be: 

elasticsearch/plugin/version for official elasticsearch 
plugins 

(download from download.elasticsearch.org) 

groupId/artifactId/version for community plugins (download 
from maven 

central or oss sonatype) 

username/repository for site plugins (download from 
github 

master ) 


在 输出 内 容 的 底部 可 以 看 到 ， 有 3 种 不 同类 型 的 插件 可 以 目 动 下 载 
一 一 从 Elasticsearch 下 载 的 、 从 Maven Central 下 载 的 或 直接 从 GitHub 下 
载 的 。 使 用 - -Url 参数 ， 用 户 也 可 以 手动 指定 URL， 如 代码 清单 B-4 


所 示 。 这 里 aq 也 允许 用 户 从 本 地 文件 来 安装 。 


例如 ， 有 一 个 已 经 下 载 到 本 地 的 揪 件 需要 安 冯 ， 可 以 在 ZIP 文 件 的 
全 路 径 前 加 上 fle:// 来 安装 该 插件 。 不 过 如 果 这 样 做 ， 就 需要 手动 地 指 
定 被 安 效 插件 的 名 称 。 


代码 清单 B-4 从 本 地 的 ZIP 文 件 手动 地 安装 插件 


$ bin/plugin --url file:///downloads/elasticsearch-head.zip -- 
install head 

-> Installing head... 

Trying file:/downloads/elasticsearch-head.zip... 

Downloading ......... DONE 

Installed head into /Users/hinmanm/ies/elasticsearch- 


1.5.1/plugins/head 
Identified as a _site plugin, moving to _site structure ... 


现在 已 经 通过 plugin 工 具 下 载 了 揪 件 并 安装 ， 或 者 已 经 从 本 地 文 
件 安装 了 插件 ， 接 下 来 用 户 会 希望 从 Elasticsearch 来 访问 这 些 插件 。 


B.3 访问 插件 


如 果 启 动 了 装 有 elasticsearch-head 插 件 的 Elasticsearch， 将 看 到 如 
代码 清单 B-5 所 示 的 日 志 。 


代码 清单 B-5 ”启动 装 有 elasticsearch-head 插 件 的 Elasticsearch 之 后 ， 输 出 结果 的 样 例 


[INFO ][node ] [Black Widow] version[1.5.1], pid[33030], 
build[5e38401/2015 -04-09T13:41:35Z] 

[INFO ][node ] [Black Widow] initializing ... 

[INFO ][plugins ] [Black Widow] loaded [], sites [head] 

[INFO ][node ] [Black Widow] initialized 

[INFO ][node ] [Black Widow] starting ... 

[INFO ][transport ] [Black Widow] bound_address {inet[/ 
0:0:0:0:0:0:0:0:9300]}, publish_address 

{inet[/192.168.0.4:9300]} 

[INFO ][discovery ] [Black Widow] 


elasticsearch/evzmesg5Q1mRjf fe- 
HnGIw 


[INFO ][cluster.service ] [Black Widow] new_master [Black 
Widow] [evzmesg5Q1mRj f fe-HnGIw] [Xanadu-2.domain] [inet[/ 
192.168.0.4:9300]], reason: zen-disco-join 

(elected_as_master ) 

[INFO ][http ] [Black Widow] bound_address {inet[/ 
0:0:0:0:0:0:0:0:9200]}, publish_address 

{inet[/192.168.0.4:9200]} 

[INFO ][node ] [Black Widow] started 


请 注意 仔细 观察 1oaded[] ，site[head] 的 文字 。 这 些 内 容 表 
示 Elasticsearch 已 经 加 载 了 哪些 插件 。 在 这 个 例子 中 ， 衬 的 [] 意味 着 
没有 安装 任何 代码 插件 。 而 [head] 的 字样 显示 head 揪 件 已 经 安装 ， 
并 被 Elasticsearch 正 确 地 识别 出 来 。 如 果 揪 件 没有 出 现在 日 志 信息 中 ， 
很 可 能 它 还 没有 被 正确 地 安装 。 


一 旦 装 有 站 点 插件 的 Elasticsearch 启动 ， 束 可 以 在 任何 Web 浏览 
as iy [A] http://localhost:9200/ _plugin/head 来 查阅 插件 的 HTML 内 容 。 


图 B-2 是 正在 运行 的 elasticsearch-head 插件 的 截屏 样 例 。 
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图 B-2 elasticsearch-head 插件 的 截屏 


为 了 使 用 一 个 站 点 插件 ， 请 访问 
http://localhost:9200/_plugin/<name>， 其 中 <name> 是 已 经 安装 的 插件 名 
称 。 这 对 于 站 点 插件 是 可 行 的 ， 但 是 代码 插件 呢 ? 在 启动 Elasticsearch 
的 时 候 ， 可 以 在 loaded [myplugin] 的 日 志 信 息 中 看 到 插件 的 名 
字 。 除 此 之 外 ， 如 何 使 用 代码 插件 会 依据 插件 的 行为 不 同 而 有 所 不 
同 。 对 于 为 Elasticsearch 添 加 了 不 同 分 析 需 的 插件 ， 要 在 映射 中 指定 新 
Waar aa os; 而 对 于 增加 了 新 型 查询 的 插件 ， 要 通过 常规 的 查询 
DSL 来 使 用 它 。 这 些 插件 可 能 还 需要 问 elasticsearch.yml 文件 中 添加 
配置 。 查 阅 所 安装 插件 的 说 明文 档 ， 理 解 应 该 如 何 正 确 地 配置 它 。 


B.4 上 告诉 Elasticsearch 必 要 的 插件 


ab ElasticsearchH) 时 候 ， 要 求 安 闭 特定 的 插件 可 能 是 很 有 帮助 
的 。 这 就 意味 着 除非 所 有 必要 的 插件 被 安装 并 识别 ， 人 否则 Elasticsearch 
将 拒绝 启动 。 这 一 点 是 通过 使 用 plugin.mandatory 设置 来 实现 


的 。 举 个 例子 ， 为 了 确保 elasticsearch-head 和 ICU 分 析 插 件 都 
被 安装 ， 可 以 在 elasticsearch.yml 中 增加 这 一 行 : 


plugin.mandatory: analysis-icu, head 


Zin, WRU BEET FB BElasticsearch, 
会 看 到 一 开始 Elasticsearch 将 拒绝 启动 。 不过， 一 旦 这 些 必要 插件 被 安 
装 成 功 ，Elasticsearch 束 能 启动 ， 如 代码 清单 B-6 所 示 。 


代码 清单 B-6 让 插件 成 为 Elasticsearch 服 务 的 必要 组 成 部 分 


$ bin/elasticsearch <--- 由 于 必要 的 插件 没有 安装 ,Elasticsearch 


拒绝 启动 


[INFO ][node ] [Carrion] version[1.5.1], 
pid[46463], 
build[5e38401/2015 -04-09T13:41:35Z] 
[INFO ][node ] [Carrion] initializing 


{1.5.1}: Initialization Failed ... 
- ElasticsearchException[Missing mandatory plugins 
[analysis-icu, head] ] 


$ bin/plugin --install mobz/elasticsearch-head ~---- 安 装 必要 的 


插件 


-> Installing mobz/elasticsearch-head... 

Trying https://github.com/mobz/elasticsearch- 
head/archive/master.zip... 

Downloading oe DONE 

Installed mobz/elasticsearch-head into 
/Users/hinmanm/ies/elasticsearch- 

1.5.1/plugins/head 
Identified as a _site plugin, moving to _site structure ... 


$ bin/plugin --install elasticsearch/elasticsearch-analysis- 
icu/2.5.0 

-> Installing elasticsearch/elasticsearch-analysis- 
icu/2.5.0... 

Trying 
http://download.elasticsearch.org/elasticsearch/elasticsearchanaly 
sis- 

icu/elasticsearch-analysis-icu-2.5.0.zip... 

Döwñtoading Sekai gx cite tie cate acta tng a E Shain aot ate aa DONE 

Installed elasticsearch/elasticsearch-analysis-icu/2.5.0 
into /Users/hinmanm/ 


ies/elasticsearch-1.5.1/plugins/analysis-icu 


$ bin/elasticsearch <--- 现 在 Elasticsearch 启 动 了 


[INFO ][node ] [ISAAC] version[1.5.1], pid[46698], 
build[5e38401/2015-04-09T13:41:35Z] 

[INFO ][node ] [ISAAC] initializing ... 

[INFO ][plugins ] [ISAAC] loaded [analysis-icu], 
sites [head] ~<---#&ffanalysis-icu 和 haed 加 载 成 功 

[INFO ][node ] [ISAAC] initialized 

[INFO ][node ] [ISAAC] starting ... 

[INFO ][node ] [ISAAC] started 


B.5 ”删除 或 者 更 新 插件 


如 果 用 户 决 定 不 再 需要 某 个 插件 ， 可 以 使 用 pin/plugin -r 或 
者 bin/plugin --remove 加 上 插件 的 名 称 ， 来 删除 该 插件 。 例 
如 ， 为 了 删除 在 之 前 章节 安装 的 elasticsearch- analysis-icu 
插件 ， 可 以 使 用 代码 清单 B-7 所 示 的 代码 。 


代码 清单 B-7 删除 analysis-icu 插 件 


$ bin/plugin --remove analysis-icu <<--- 删 除 analysis-icu 插件 
-> Removing analysis-icu... 

Removed analysis-icu 

$ bin/plugin --list =---- 插 件 analysis-icu 不 再 显示 于 已 安装 的 列表 中 
Installed plugins: 


- No plugin detected in /data/elasticsearch/plugins 


更 新 插件 是 采用 同样 的 功能 ， 不 过 插件 工具 没有 升级 的 选项 。 实 
际 上 ， 为 了 更 新 插件 首先 必须 删除 旧 的 版 本 ， 然 后 安装 想 要 的 新 版 
本 。 为 了 升级 elasticsearch-head 插件 ， 需 要 运行 
bin/plugin--remove head ， 然 后 是 bin/plugin--install 
mobz/elasticsearch-head 。 


如 你 所 见 ， 使 用 Elasticsearch 内 含 的 插件 脚本 来 管理 插件 是 很 容易 
的 。 如 果 想 了 解 Elastic 和 社区 所 管理 的 一 系列 有 用 的 插件 ， 请 查阅 这 


个 URL 链 接 : www.elastic.co/guide/en/elasticsearch/ 
reference/current/modules-plugins.html#known-plugins ° 


附录 C AA 


高 亮 (highlighting) 通过 强调 匹配 的 词 条 来 表示 为 什么 某 个 查询 
会 命中 某 篇 文档 ， 让 用 户 理 解 文档 是 关于 什么 的 ， 以 及 文档 和 查询 之 
间 的 关系 ， 如 图 C-1 所 示 。 


Elasticsearch in Action 


Images Videos Products 


Manning: Elasticsearch in Action - Manning Publications Co. 


Elasticsearch in Action teaches you how to build scalable search applications using Elastics2arch. You'll ramp 
up fast, with an Informative overview and an engaging Introductory example. Within the first few chapters, 


Mm manning.com 


图 C-1 高 亮 向 我 们 展示 了 为 什么 某 篇 文档 和 查询 术 


尽管 图 片 C-1 是 取 上 自 DuckDuckGo 站 点 的 例子 ， 不 过 Elasticsearch 也 
是 提供 高 亮 功能 的 。 例 如 ， 可 以 在 get-together 活 动 的 标题 中 搜索 关键 
词 “elasticsearch”， 并 将 命中 的 单词 如 此 突出 。 


| 


Cac 


"title" : [ "Introduction to <em>Elasticsearch</em>" ], 


H TRIE se, AHS, ARES RTE Pan o 


。 搜索 请 求 的 组 成 部 分 high1ight ， 它 和 query 以 及 
aggregations 是 同一 层 的 。 

。 用 户 和 硕 望 高 亮 的 字段 列表 ， 残 像 活动 名 称 或 者 活动 描述 。 

。 被 包含 于 _source 其 中 或 者 是 单独 存储 的 高 亮 字段 。 


所 有 被 _source 包含 的 字段 默认 情况 下 是 不 会 单独 存储 的 。 
| 多 关于 _source 和 存储 字段 的 信息 。 


j 户 可 以 在 3.4.1 节 查 


在 进行 了 基本 的 高 亮 之 后 ， 可 能 想 调 节 某 些 设置 。 在 这 里 ， 我 们 
也 将 讨论 高 亮 选 项 中 最 重要 的 几 点 。 


。 匹配 什么 一 一 例如 ， 可 以 决定 即使 没有 高 亮 的 词 条 同样 显示 字段 
的 片断 ， 并 为 所 有 的 文档 展示 同样 的 字段 。 或 者 ， 可 以 使 用 不 同 
于 搜索 的 查询 来 进行 高 亮 。 

© 俯 片 看 上 去 是 什么 样子 一 对 于 庞大 的 字段 ， 通 常 不 会 获取 全 间 

带 有 高 亮 词 条 的 内 容 ; 只 需要 一 个 或 多 个 在 词 条 周围 的 文本 碎 

片 。 用 户 可 以 配置 返回 多 少 和 碎片 、 显 示 的 顺序 以 及 雁 上 的 大 小 。 

如 何 高 亮 可 以 修改 默认 的 <em> 和 </em> 标签 ， 换 成 其 他 的 

样式 。 如 果 仍 然 使 用 HTML 标 签 ， 可 以 让 Elasticsearch 将 整个 碎片 

编码 为 HTMIL (例如 ， 避 人 免 “与 字符 & ) ， 这 样 就 可 以 在 应 用 程 

序 中 正确 地 演 染 这 些 雁 片 。 


我 们 也 将 讨论 不 同 高 亮 的 实现 方式 。 默 认 的 实现 被 称 为 pLain , 
为 了 高 亮相 关 的 词 条 ， 它 需要 对 存储 字段 中 的 文本 进行 重新 分 析 。 对 
于 大 型 字段 而 言 ， 如 博客 帖 的 内 容 ， 这 个 处 理 过程 的 成 本 可 能 变 得 很 
高 郧 。 蔡 换 的 方法 是 ， 可 以 使 用 后 高 亮 器 (Postings Highlighter) 或 者 
是 快速 向 量 高 亮 器 (Fast Vector Highlighter) 。 这 两 者 都 需要 修改 映 
射 ， 让 Elasticsearch 存 储 更 多 的 数据 : Hier sia BRA RR 
回 量 高 亮 硕 使 用 的 词 条 回 量 。 两 个 修改 都 会 增加 索引 的 大 小 ， 而 且 在 
索引 的 时 候 会 使 用 更 多 的 计算 能 


每 种 高 亮 的 实现 都 有 其 自己 的 特性 ， 我 们 将 在 本 附录 稍 后 讨论 这 
些 。 首 先 ， 来 看 一 下 高 亮 的 基本 内 容 。 
C.1 高 亮 的 基础 


一 开始 ， 用 户 将 重 现 介绍 部 分 的 高 亮片 断 。 代 码 清单 C-1 将 在 get- 
together 活 动 名 称 上 搜索 词 条 “elasticsearch”， 而 且 在 tit1e 和 
description 字段 中 高 亮 该 词 条 。 


为 了 让 代码 清单 C-1 可 以 运行 ， 需 要 下 载 本 书 的 代码 样 例 ， 方 法 是 从 https://github.com/ 
dakrone/elastic- search-in-action 复 制 Git 仓 库 并 运行 populate.sh 来 索引 样 例 数据 。 


代码 清单 C-1 高 亮 两 个 字段 中 的 词 条 


curl localhost:9200/get-together/event/_ Soatcl precty -d '{ 


"query": { «---Elasticsearch 典型 的 匹配 查询 ， 没 有 什么 新 内 容 


"match": { 
"title": "elasticsearch" 
} 
ty 
"highlight": { ”<<--- 包 括 了 哪些 字段 想 高 亮 
"fields": { 
"title": {}, 
"description": {} 
} 
}' i 
# reply 
"hits" : [ { 
"_index" : "get-together", 
"_type" : "event", 
" id" ` "103", 
"_score" : 0.9581454, 
"_source":{ 
"host": "Lee", <--- 同 复 内 容 包 含 了 之 前 的 _source.. 
"title": "Introduction to Elasticsearch", 
"description": "An introduction to ES and each other. We 


can meet and 
= greet and I will present on some Elasticsearch basics and how we 
use it.", 


[…] 
"highlight" : { =----. 不 过 ， 如果 高 亮 字段 和 词 
条 “Elasticsearch7 匹 配 ， 那 么 还 会 显示 这 些 字段 
"title" : [ "Introduction to <em>Elasticsearch</em>" 
], 
"description" : [ "can meet and greet and I will 


present on some 
: : aE 
= <em>Elasticsearch</em> basics and how we use it." ] 


} 
[…] 
"title": "Elasticsearch and Logstash", 
"description": "We can get together and talk about 
Logstash - 
= http://logstash.net with a sneak peek at Kibana", 
[…] 
"highlight" : { 
"title" : [ "<em>Elasticsearch</em> and Logstash" ] 


EO 
这 里 高 亮 可 以 奏效 ， 因 为 默认 情况 下 title 和 description 字 
段 是 包含 在 _source 之 中 的 。 如 果 它 们 是 单独 存储 的 (在 字段 映射 中 


将 store 设置 为 true ) ， 那 么 Elasticsearch 将 从 存储 的 字段 中 提取 内 
容 ， 而 不 是 从 source 中 提取 。 


如 果 只 高 亮 单 个 字段 ， 那 么 存储 一 个 字段 而 不 是 访问 _source ， 这 样 操作 的 执行 速度 
可 能 会 更 快 。 如 果 需 要 高 亮 多 个 字段 ， 使 用 _source 通常 更 快 ， 因 为 所 有 的 字段 都 是 从 同 
一 个 读 取 人 磁盘 的 操作 获取 的 。 在 高 亮 请 求 中 ， 可 以 将 force_source 设置 为 true 设置 ， 
来 强制 系统 使 用 _source 而 不 是 已 经 存储 的 字段 。 对 于 多 数 使 用 案例 ， 最 好 还 是 使 用 默认 

的 _source 方案 一 一 对 于 映射 和 高 亮 都 是 如 此 。 


根据 你 的 用 例 ， 代 码 清单 C-1 可 能 不 是 你 想 要 的 结果 。 让 我 们 看 看 
me Fs LA Nadel, DAR OUR EA 。 


C.1.1 应 该 让 用 户 看 到 什么 


代码 清单 C-1 的 结果 包含 了 _source 字段 ， 如 果 title 和 /或 
description 字段 中 有 需要 高 亮 的 内 容 它们 也 会 被 返回 。 假 设想 返 
回 title 和 description 字段 给 用 户 ， 那 么 用 户 不 得 不 在 应 用 程序 
中 实现 这 些 。 


。 检查 字段 (这 个 例子 中 的 title description) 是 否 被 高 
。 如 果 是 ， 那 么 展示 高 亮 的 碎片 。 如 果 不 是 ， 取 出 _source 中 原 有 
的 字段 内 容 。 


一 个 更 优美 的 解决 方案 是 ， 无 论 其 中 是 否 有 高 亮 的 内 容 ， 让 高 亮 
avila] title 和 description 字段 的 碎片 。 在 代码 清单 C-2 中 ， 即 
使 在 字段 没有 命中 的 情况 下 ， 你 仍然 可 以 将 no_match_size 设置 为 
期 望 的 碎 斤 字符 数量 ， 来 达到 这 个 目的 。 这 个 参数 默认 的 值 是 0 ， 这 
也 是 为 什么 没有 命中 的 字段 压根 不 会 显示 。 


当 无 法 控制 字段 的 规模 时 ， 配 置 碎片 的 大 小 是 很 有 用 处 的 。 举 个 例子 ， 如 果 从 
_source 获取 了 活动 的 描述 ， 而 其 内 容 占据 了 1 整 页 ， 那 么 整个 用 户 的 交互 界面 就 被 毁 
了 。C.2.1 庆 将 讨论 文本 碎片 的 大 小 和 其 他 碎片 的 选项 。 


在 高 亮 器 返回 用 户 所 需 的 所 有 字段 之 后 ， 结 果 中 的 _source 字段 
就 变 得 多 余 了 ， 所 以 用 户 可 以 在 搜索 请 求 中 将 _source 设置 为 false 
来 跳 过 它 ， 如 代码 清单 C-2 所 示 。 


代码 清单 C-2 ”使 用 no_match_size 人 参数 ， 强 制 高 亮 器 返回 所 需 的 字段 


curl localhost:9200/get-together/event/_search?pretty -d '{ 
"query": { 
"match": { 
"title": "elasticsearch" 


}, 
"highlight": { 


"no_match_size": 100, =---- 对 于 没有 匹配 的 字段 ， 显 示 最 多 100 个 字符 
"Fields": { 
"title": {}, 
"description": {} 
} 
}, 


"_source": false <。--- 在 高 亮 字 段 中 ,已 经 拥有 了 全 部 所 需 的 信息 ， 所 以 关闭 
_source 字段 


} 1 
# reply 
"hits" : [ { 
"_index" : "get-together", 
"_type" : "event", 
" jd" : "103", 
"_ score" : 0.9581454, =-- -返回 结果 中 没有 _source 字段 了 
"highlight" : { 
"title" : [ "Introduction to <em>Elasticsearch</em>" ], 
"description" : [ "can meet and greet and I will present 
on some 
em>Elasticsearch</em> basics and how we use it." ] 
} 
[…] 
"highlight" : { 
"title" : [ "<em>Elasticsearch</em> and Logstash" ], 


"description" : [ "We can get together and talk about 


Logstash - 


http://logstash.net with a sneak peek at Kibana" ] =--- 这 个 描述 并 
不 匹配 ， 但 是 该 字段 还 是 显示 了 用 于 补 全 的 内 容 


[© 


无 论 字 段 是 否 匹配 ， o e ° 下面 


EJ A 
来 看 看 另 一 种 不 同 的 用 法 (也 十 分 常用 


C12 ” 太 多 的 字段 包含 高 亮 词 


BES 


涂 ， 明 明 只 在 title 字段 里 搜索 了 elasticsearch ,为 什么 在 描述 
字段 里 也 会 高 亮 elasticsearch E? 为 了 仅 高 亮 和 查询 相 匹 配 的 字 
段 ， 用 户 可 以 将 require_field_match 设置 为 true ， 如 代码 清单 
C-3 所 示 。 现 在 ， 如 果 查 询 只 是 和 title 字段 匹配 ， 那 么 只 有 title 
字段 才 会 高 亮 命 中 的 词 条 。 


如 有 果 将 代码 清单 C-2 的 高 腕 结果 发 送 给 用 户 看 ， 他 们 可 能 会 很 糊 


代码 清单 C-3 ”仅仅 高 亮 和 查询 相 


ma | 
品 


配 的 字段 


curl localhost:9200/get-together/event/_search?pretty -d '{ 

"query": { 

"match": 

"title": "elasticsearch" 

} 
ty 
"highlight": { 

"require_field_match": true, 


"fields": { 
"title": {}, 
"description": {} 
} 
} 
} 1 
# reply 
"highlight" : { 
"title" : [ "Introduction to < em>Elasticsearch< /em>" | 


~- - -现在 只 有 标题 字段 title 被 高 亮 了 


} 
[..] 


"highlight" : { 
"title" : [ "< em>Elasticsearch< /em> and Logstash" ] 


} 


还 有 另 一 种 方法 可 以 获得 同样 的 结果 ， 那 就 是 搞 清 楚 搜 索 只 会 在 
title 字段 上 执行 ， 并 且 只 将 title 字段 加 入 高 亮 字段 的 列表 。 这 样 
也 许 能 奏效 ， 但 是 有 的 时 候 用 户 无 法 控制 在 哪些 字段 上 搜索 。 举 例 来 
说 ， 如 果 使 用 了 我 们 在 第 4 章 讨论 的 query_string 查询 ， 尽 管 默 认 
的 搜索 字段 已 经 被 指定 ， 但 是 某 些 使 用 者 可 能 还 是 会 引入 
description:elasticsearch 这 样 的 条 件 来 搜索 默认 以 外 的 字 
段 。 


这 里 require_field_match 和 no_match_size 只 是 众多 高 
营 选 项 中 的 两 个 。 用 户 可 能 会 发 现 很 多 其 他 有 用 的 选项 ， 下 一 市 将 讨 


| 
p 


C.2 ”高 党 选项 


除了 选择 高 之 哪些 字段 以 外 ， 还 可 以 配置 高 亮 的 其 他 选项 ， 例 如 


。 调整 高 亮 碎 片 的 大 小 和 数量 。 
。 修改 高 亮 标签 和 编码 。 
。 为 高 亮 指定 不 同 的 查询 ， 而 不 是 原来 的 主 查询 。 


楼 下 来 我 们 逐个 讨论 。 
C.2.1 碎片 的 大 小 、 顺 序 和 数量 


在 活动 的 description 字段 高 亮 elasticsearch 关键 词 的 时 
候 ， 只 会 显示 高 亮 词 附近 100 个 字符 左右 的 碎 族 。 正 如 代码 清单 C-1 和 
代码 清单 C-2 所 示 ， 这 并 不 总 是 包含 整个 字段 ， 所 以 这 种 上 下 文 可 能 就 
太 多 或 者 太 少 。 


"description" : [ "can meet and greet and I will present on some 


= <em>Elasticsearch</em> basics and how we use it." ] 


我 们 之 所 以 说 “大 约 ?100 个 字符 ， 是 因为 Elasticsearch 试 图 确保 没 
有 单词 被 截断 ， 所 以 会 依据 具体 情况 多 保留 或 少 保留 知 干 字符 。 


1. 碎片 的 大 小 


很 自然 地 ， 有 一 个 fragment_size 选项 来 修改 默认 的 碎片 大 
小 。 将 其 设置 为 6 会 显示 整个 字段 内 容 ， 对 于 名 字 这 样 的 短 字 7 段 ， 如 
此 处 理 能 收 到 不 错 的 效果 。 


用 户 可 以 全 局 性 地 为 所 有 字段 设置 入 片 大 小 ， 也 可 以 为 每 个 字段 
单独 设置 。 单 独 设置 会 覆盖 全 局 性 的 设置 ， 如 代码 清单 C-4 所 示 ， 它 将 
在 description 字段 中 搜索 “Elasticsearch”“Logstash” 和 “Kibana”。 


代码 清单 C-4 基于 具体 字段 的 fragment_size 设 置 履 盖 了 全 局 的 设置 


curl localhost:9200/get-together/event/_search?pretty 


"query": { 
"match": { 
"description": "elasticsearch logstash kibana" 


} 


ty 
"highlight": { 
"fragment_size": 20, =--- 全 局 性 的 碎片 大 小 设置 对 于 所 有 


"fields": { 
"title": {}, 
"description": { =--- 基 于 具体 字段 的 碎片 大 小 设置 覆盖 


了 全 局 的 设置 


"fragment_size": "40" 
} 
} 
} 
} 1 
# reply 
"highlight" : { 


"title" : [ "Logging and 
<em>Elasticsearch</em>" ], 

"description" : [ "dive for what 
<em>Elasticsearch</em> is and how 
= it", "logging with <em>Logstash</em> as well as 
<em>Kibana</em>!" ] <--- 碎 片 只 展示 了 字段 的 一 部 分 


} 
[…] 
"highlight" : { 
"title" : [ "<em>Elasticsearch</em> and 
<em>Logstash</em>" ], 
"description" : [ "together and talk about 
<em>Logstash</em> - 


= http://logstash", "with a sneak peek at <em>Kibana</em>" | 


[..] 
"highlight" : { 


"title" : [ "<em>Elasticsearch</em> at" ], 
"description" : [ "how they use 
<em>Elasticsearch</em>" | 


} 


从 这 个 代码 清单 中 可 以 看 出 ， 如 果 碎 片 的 大 小 足够 小 ， 而 命中 词 
条 出 现 的 次 数 足够 多 ， 那 么 就 会 生成 多 个 碎片 。 


2. 碎片 的 顺序 


默认 地 ， 雁 片 按照 在 文中 出 现 的 顺序 返回 ， 如 代码 清单 C-4 所 示 。 
这 对 于 短文 本 而 言 可 以 很 好 地 运作 ， 磁 片 的 目 然 顺 序 给 用 户 提供 了 更 
。 例 如， 代码 清单 C-4 中 的 摘 述 碎片 ， 很 好 地 展示 了 描述 


对 于 大 型 的 文档 ， 如 一 本 书 ， 目 然 的 顺序 往往 效果 并 不 理想 ， 原 
因 是 雄 片 可 能 会 很 分 散 ， 用 户 无 法 看 出 它们 之 间 的 联系 。 例 如 ， 如 果 
在 书 中 搜索 “elasticsearch parent child”， 最 前 面 的 两 个 碎片 可 能 是 这 样 
Hy: 


"we will discuss how Elasticsearch 


works and" 


"the child 
aggregation works on buckets generated by" 


假设 想 找 的 是 Elasticsearch 中 的 父子 关系 ， 上 面 这 些 是 完全 不 相关 
的 。 尺 管 此 书 它 本 身 讨论 了 这 个 话题 并 且 是 相关 的 ， 最 好 还 是 显示 本 
书 之 后 出 现 的 这 个 碎片 。 


"parent-child 


relationships work with different Elasticsearch 


documents" 


STUCK FEUER, RIRA MAAAR ER EHP TY 
顺序 是 很 合理 的 ， 因 为 用 户 很 可 能 对 于 相关 的 内 容 更 有 兴趣 ， 这 样 他 
们 残 可 以 确定 这 个 结果 是 否 是 他 们 所 期 望 的 。 


高 亮 郁 对 于 每 个 碎片 计算 了 TF-IDF 的 得 分 ， 束 像 为 索引 中 的 文档 
计算 得 分 那样 。 为 了 按照 这 个 得 分 对 碎 睛 进行 排序 ， 需 要 在 请 求 的 
highlight 部 分 将 order 参数 设置 为 Score 。 和 了 碎片 的 大 小 参数 一 
样 ， 可 以 单独 地 设置 顺序 且 / 或 全 局 性 地 设置 顺序 。 例 如 ， 下 面 的 高 亮 
部 分 将 为 代码 清单 C-4 的 “elasticsearch logstash kibana” 查 询 变 更 碎片 的 
顺序 : 


"highlight": { 
"fields": { 
"description": { 
"fragment_size": 40, 
"order": "score" 


、 可 以 看 到 ， 匹 配 了 更 多 词 条 的 碎片 优先 出 现 ， 因 为 它 有 更 高 的 得 


分 


"description" : [ "logging with <em>Logstash</em> as well as 


= <em>Kibana</em>!", "dive for what <em>Elasticsearch</em> is and 
how it" ] 


3. 雄 片 的 数量 


对 于 像 书籍 这 样 的 大 型 文 要 ， 只 显示 一 个 大 的 、 相 关 的 碎片 是 合 
理 的 。 而 多 个 小 碎片 对 于 描述 较 小 的 字段 很 有 效 ， 如 已 经 使 用 过 的 活 
动 描述 。 用 户 可 以 通过 number_of_fragments 来 调节 碎片 的 数 
量 ， 其 默认 值 是 5。 


"highlight": { 
"fields": { 
"description": { 
"number_of_fragments" 


对 于 非常 小 的 字段 ， 如 名 称 或 者 简短 描述 ， 可 以 将 
number_of_fragments 设置 为 0。 这 将 跳 过 所 有 的 雄 片 ， 并 忽略 
fragment_size 的 值 ， 返 回 整个 字段 作为 单独 的 片段 。 


讨论 过 雁 斤 的 大 小 、 顺 序 和 数量 之 后 ， 让 我 们 继续 讨论 如 何 配置 
雁 户 返回 的 方式 。 


C.2.2 ”高 亮 标签 和 碎片 编码 


用 户 可 以 通过 pre_tags 和 post_tags 选项 ， 修 改 默认 的 <em> 
和 </em> 标签 。 在 代码 清单 C-5 中 ， 将 使 用 <b> 和 </b> BRERA HIER 


代码 清单 C-5 ”定制 的 高 亮 的 标签 


curl localhost:9200/get-together/event/_search?pretty -d '{ 
"query": { 
"match": { 
"title": "elasticsearch" 


J 


ty 
"highlight": { 
"pre_tags" : ["<b>"], =---- 全 局 标签 也 可 以 为 每 个 字段 定义 不 同 的 标签 
"post_tags" : ["</b>"], 
"fields": { 
"title": {} 


"highlight" : { 
"title" : [ "<b>Elasticsearch</b> at Rangespan and Exonar" 
=- - - CHR EH T PTA DS 
} 


如 果 定 制 了 和 默认 标签 一 样 的 HTML 标 签 ， 则 可 能 想 将 碎片 泻 染 
成 HTML 格 式 并 展示 在 某 些 用 户 界 面 中 。 这 里 可 能 遇 到 一 个 问题 : 默 
认 情 况 下 ，Elasticsearch 返 回 的 碎片 是 没有 任何 编码 的 ， 所 以 如 果 有 特 
殊 的 字符 (如 “与 "字符 & ) 它们 就 无 法 被 正确 地 演 染 。 举 例 来 说 ， 被 
高 亮 为 <em>select </em>&copy 的 内 容 将 像 图 C-2 那 样 显示 ， 因 为 
&copy 序列 被 解释 为 版 权 符 号 。 


© file: 


select© 


图 C-2 ”缺乏 碎片 的 编码 ， 将 使 得 浏览 器 错误 地 解释 HTML 内 容 


这 里 “与 ”字符 需要 重 写 为 &amp ; 。 你 可 以 将 encoder 设置 为 
html 来 达到 这 个 目的 。 


"highlight": { 
"encoder": "html", 


"Fields": { 
"title": {} 
} 


} 


这 时 HTML 编 码 絮 将 正确 地 洽 染 文本 ， 如 图 C-3 所 示 。 


€ @file:///hor 


select&copy 


图 C-3 ”使 用 HTML 编 码 器 来 避免 解析 的 错误 


现在 ， 我 们 已 经 学 习 了 定制 碎片 的 内 容 ， 这 里 回头 看 看 一 开始 产 
生 高 亮 雁 族 的 查询 。 默 认 情 况 下 ， 系 统 使 用 主 查 询 的 词 条 来 进行 高 
亮 ， 不 过 你 也 可 以 目 定 义 碍 询 。 


C.2.3 ARAW 


使 用 主 碍 询 进 行 高 之 对 于 多 数 情况 都 是 适用 的 ， 但 是 也 有 一 些 情 
况 需 要 特殊 处 理 ， 例 如 ， 你 使 用 了 再 评分 的 得 询 。 


在 第 6 章 讨 论 相 关 性 的 时 候 ， 首 次 磁 到 了 再 评分 的 机 制 ， 因 为 再 次 
评分 允许 用 户 在 全 部 结果 的 前 N LE, PUTER (通常 也 是 更 
耗 性 能 的 查询 ) 来 提升 结果 的 排序 。Elasticsearch 会 将 原 有 的 得 分 和 再 
评分 查询 的 得 分 相 结合 ， 获 得 最 终 的 得 分 。 问 题 在 于 : 再 评分 查询 并 
不 适用 于 高 亮 。 


这 时 候 定 制 的 高 亮 查 询 就 变 得 很 有 用 处 了 。 举 个 例子 ， 如 果 主 碍 
询 正在 查找 名 称 中 包含 elasticsearch search 关键 词 的 分 组 ， 
而 用 户 也 想 为 含有 search 字样 的 标签 加 分 ， 如 enterprise 
search 。10.4.1 节 提 到 了 *search 这 样 的 通配符 查询 是 非常 消耗 性 
能 的 ， 所 以 可 以 将 这 个 条 件 放 入 再 评分 查询 ， 只 在 前 200 篇 文档 上 执 
IT? 

在 代码 清单 C-6 中 ， 将 看 到 如 何 将 elasticsearch 和 search 的 
名 称 ， 以 及 *search 的 标签 放 入 高 亮 的 查询 ， 来 高 亮 突出 搜索 中 所 有 
涉及 的 词 条 。 用 户 可 以 看 到 通配符 得 以 扩展 ， 而 且 高 亮 也 匹配 上 了 


enterprise search 这 样 的 标签 。 


代码 清单 C-6 ”高 亮 查 询 包 含 了 主 查 询 和 再 评分 查询 的 词 条 


curl localhost:9200/get-together/group/_search?pretty -d '{ 
"query" : { 
"match" : { 
"name" : "elasticsearch search" ---- 主 查询 匹配 了 名 称 字 段 中 的 
elasticserch 和 和 serch 
} 
ty 
"rescore" : { 
"window_size": 200, 
"query" : { 
"rescore 


"wildcard" : { 
"tags.verbatim" : "*search" =--- 再 评分 查询 匹配 了 以 


serch 结尾 的 标签 


} 


}, 
"highlight": { 
"highlight_query" 


"query_string": { 
"query": "name:elasticsearch name:search 
tags.verbatim:*search" “~--- 高 亮 查询 匹配 了 所 有 的 主 查 询 和 再 评分 查询 条 件 


i 


ty 
"fields": { 
"name": {}, 
"tags.verbatim": {} 


4 
# reply 
"highlight" : { 
"name" : [ "<em>Elasticsearch</em> Denver" ], <--- 
在 名 称 字 段 中 的 elasticserch 和 serch 被 高 亮 了 
"tags.verbatim" : [ "<em>elasticsearch</em>" ] <-- 
-所 有 以 serch 结尾 的 标签 也 都 被 高 亮 了 
Lees | 
"highlight" : { 
"name" : [ "Enterprise <em>search</em> London 
get-together" ], 
"tags.verbatim" : [ "<em>enterprise search</em>" 


] 
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根据 具体 的 用 例 来 选择 最 合适 的 实现 方式 。 
C.3 ”高 亮 器 的 实现 方式 


到 目前 为 止 我 们 一 直 假设 使 用 的 是 默认 的 高 亮 硕 实现 方式 一 一 简 
单 型 (plain) 。 简 单 型 高 亮 器 的 工作 方式 是 分 析 每 个 字段 的 文本 ， 识 
别 要 被 蜗 腕 的 词 条 以 及 它们 在 文本 中 的 位 置 。 对 于 多 数 用 例 而 言 ， 这 
征 不 错 的 选择 ， 只 有 被 高 之 的 字段 才 需要 被 单独 存储 或 在 _source F 
段 里 存储 。 由 于 简单 型 高 亮 硕 必须 再 次 分 析 文 本 ， 它 在 大 型 字段 上 运 
行 时 可 能 很 慢 ; 例如， 当 你 索引 一 本 书 或 者 是 博客 帖子 的 内 容 时 。 


对 于 这 种 情况 ， 男 外 两 种 实现 就 能 发 挥 作用 了 : 
。 后 高 之 器 (Posting Highlighter) ; 
。 人 快速 向 量 高 亮 器 (Fast Vector Highlighter) ° 


在 大 型 字段 上 ， 这 两 着 比 简单 型 高 亮 郁 都 要 快 ， 不 过 都 需要 在 索 
引 中 存储 额外 的 数据 一 一 有 了 这 些 数据 才 可 能 加 速 处 理 。 两 者 也 有 各 


目的 特点 ， 接 下 来 会 讨论 。 


如 果 你 并 不 清楚 哪个 高 亮 器 最 适合 你 ， 我 们 建议 先 从 简单 型 高 这 
器 开始 ， 然 后 当 简单 型 被 证 明 很 慢 之 后 ， 可 以 尝试 后 高 亮 器 ， 因 为 后 
高 亮 器 只 增加 了 一 点 点 额外 的 索引 大 小 ， 对 于 较 小 的 字段 效果 也 不 
BE UR PERE EEO a BER, CRA 
器 吧 « 


C.3.1 ARARA 


后 高 亮 器 需要 将 被 高 亮 字段 的 index_options 设置 为 offsets 
， 这 会 存储 每 个 词 条 在 索引 中 的 地 址 (位 置 和 偏 移 量 ) 。 如 代码 清单 
C-7 所 示 ， 偏 移 量 表示 了 表示 了 某 个 词 条 在 文本 中 确切 的 位 置 ， 有 了 这 
些 信 息 ， 后 高 亮 器 就 能 识别 哪些 词 条 需要 高 亮 ， 而 无 须 再 次 分 析 文 


本 。 


代码 清单 C-7 显示 偏 移 量 的 分 析 API 接 口 


curl localhost:9200/_analyze?pretty -d 'Introduction to 
Elasticsearch' 


<- - -在 分 析 文 本 的 时 候 ，Elasticserch 可 以 存储 偏 移 量 


# reply 
{ 
"tokens" : [ { 
"token" : "introduction", 


"start_offset" : 0, 
"end_offset" : 12, 


"type" : "<ALPHANUM>", 
"position" : 1 

} i 
"token" : "to", 


"start_offset" : 13, 
"end_offset" : 15, 
"type" : "<ALPHANUM>", 
"position" : 2 


t, { 


"token" : "elasticsearch", 


--- -存储 偏 移 量 之 后 ， 就 没有 
"start_offset" : 16, 


要 进行 第 二 次 的 分 析 来 定位 词 条 


"end_offset" : 29, 


"type" : "<ALPHANUM>", 
"position" : 3 


} ] 


当 分 析 文 本 的 时 候 ，Elasticsearch 可 T WRM ERF 


储 其 ce 确 的 位 置 。 有 了 偏 移 量 ，Elasticsearch 进 亮 的 时 候 束 没有 必 
要 再 次 分 析 文 本 来 定位 词 条 。 将 词 条 偏 移 量 加 入 索引 是 一 种 典 型 的 平 
衡 策 略 ， 可 以 放 慢 索引 的 构建 并 增 大 索引 的 大 小 ， 来 换取 更 快 的 查询 
速度 。 在 第 10 章 已 经 了 解 了 很 多 这 样 的 性 能 平衡 方法 。 


将 index_options 设置 为 offsets 时 ， 系 统 会 自动 地 使 用 后 高 


一 pg 


亮 右 。 例 如 ， 代 码 清单 C-8 为 新 索引 的 content 内 容 字 上 段 打 开 偏 移 
量 ， 添 加 两 篇 文档 并 高 亮 它们 。 


代码 清单 C-8 使 用 后 高 亮 器 


INDEX_URL="Localhost:9200/test -postings" 
curl -XDELETE $INDEX_URL ~--- 使 用 后 高 亮 器 的 索引 名 称 
curl -XPUT $INDEX_URL -d '{ 
"mappings": { 
"docs": { 
"properties": { 
"content": { 
"type": "string", 
"index_options": "offsets" ---- 后 高 亮 器 所 需 的 设 
置 


} 
} 
} 
curl -XPUT $INDEX_URL/docs/1 -d '{ =---- 索 引 两 个 样 例文 档 
"content": "Postings Highlighter rocks. It stores 


offsets in postings." 
}' 
curl -XPUT $INDEX_URL/docs/2 -d '{ 
"content": "Postings are a generic name for the 
inverted part of the 
= index: term dictionary, term frequencies, term positions." 
}' 
curl -XPOST $INDEX_URL/_refresh 
curl "$INDEX_URL/_search?q=content:postings&pretty" -d 
'{ «---#is}content 内 容 字段 中 的 “posting”; 系统 会 自动 使 用 后 高 亮 器 
"highlight": { 


"fields": { 
"content": {} 
} 2 
}" 
# reply 
"highlight" : { 
"content" : [ "<em>Postings</em> Highlighter 


rocks.", "It stores 
= offsets in <em>postings</em>." ] 


} 
[...] 
"highlight" : { 
"content" : [ "<em>Postings</em> are a generic 

name for the inverted 
= part of the index: term dictionary, term frequencies, term 
positions." ] 

} 


从 这 个 代码 清单 中 ， 可 以 看 出 被 高 亮 的 样 例 是 句子 ， 
如 果 设 置 了 fragment_ size ， 后 高 亮 器 会 忽略 这 个 选项 ， 碎 片 也 
将 是 句子 ， 除 非 将 number_of_fragments 设置 为 0 ， 否 则 整个 字段 


KFS (FREY o 


如 果 想 手动 设置 高 亮 器 的 实现 方式 ， 可 以 将 type (简单 型 高 亮 器 
postings 《后 高 亮 器 ) ， 或 者 fvh (RRM Smee) 。 这 个 选项 可 以 是 全 局 性 地 设 
置 ， 或 者 按照 字段 设置 ， 如 果 改 变 了 主意 而 叉 不 林 8 重新 索引 ，， 这 就 很 有 用 处 。 例 如 ， 用 户 
a 但 是 并 不 喜欢 后 高 亮 呈 将 句子 作为 碎片 的 方式 ， 所 以 需要 一 种 方式 切 回 人 
i 高 亮 器 。 


g a 


从 内 部 来 看 ， 后 高 亮 右 将 字段 切 分 为 句子 〈 然 后 成 为 碎片 ) ， 将 
每 个 句子 作为 单独 的 文档 ， 使 用 BM25 相 似 度 对 它们 进行 打分 。 正 如 
我 们 在 第 6 章 所 讨论 ，BM25 是 基于 TF-IDF 的 相似 度 ， 对 于 较 短 的 字段 
效果 很 好 ， 就 像 这 些 切 分 出 来 的 句子 一 样 。 


鉴于 雄 厂 创建 和 评分 的 机 制 ， 当 索引 书籍 或 博客 这 样 的 目 然 语言 
时 ， 后 高 腕 右 束 能 奏效 。 当 用 户 索 引 代码 的 时 候 ， 后 融 吏 器 可 能 无 法 
很 好 地 运作 ， 因 为 句子 的 概念 并 不 适合 ， 这 里 可 以 将 整个 子 段 作为 单 
RAIRE, AE RTICIZ EMER IKA © 


后 高 党 器 的 男 一 个 不 足 是 ， 人 至 少 在 版 本 1.4 中 ， 它 还 无 法 和 词组 查 
询 很 好 地 配合 使 用 ， 因 为 它 只 考虑 了 单个 词 条 。 例 如 ， 代 码 清单 C-9 将 
使 用 匹配 词组 查询 match_phrase 查找 词组 "Elasticsearch 
intro" ° 


代码 清单 C-9 ”后 高 亮 器 匹配 了 所 有 的 词 条 ， 但 是 忽视 了 词组 


curl -XPUT localhost:9200/test-postings/docs/2 -d '{ 


"content": "Elasticsearch intro - first you get an intro of the 
core 


= concepts, then we move on to the advanced stuff" 
T 


curl localhost:9200/test-postings/_search?pretty -d '{ 
"query": { 
"match_phrase": { 
"content": "Elasticsearch intro" 
} 
ty 
"highlight": { 
"encoder": "html", 
"fields": { 
"content": {} 


} 


1 
# reply 
"highlight": { 
"content": ["<em>Elasticsearch</em> <em>intro</em> - first you 
get an 


= <em>intro</em> of the core concepts, then we move on to the 
advanced 


stuff"] =--- 第 二 次 出 现 的 “intro7 也 被 高 亮 了 ， 尽 管 它 并 不 是 某 个 词组 的 一 


Ok 


z San 


curl localhost:9200/test-postings/_search?pretty -d '{ 


"query": { 
"match_phrase": { 
"content": "Elasticsearch intro" 
} 
"highlight": { 
"encoder": "html", 
"fields": { 


"content": { 
"type": "plain" ~--- 使 用 简单 型 高 亮 器 ， 只 有 词组 


只 才 会 被 高 亮 
} 
} 
} 
1 

#reply 
"highlight" : { 

"content" : [ "<em>Elasticsearch</em> <em>intro</em> - first 
you get an 
= intro of the core concepts, then we move on to the advanced 
stuff" ] 


} 


你 会 发 现 尽管 单个 词 条 不 属于 词组 的 一 部 分 


， 它 们 也 被 高 党 了 ， 
而 简单 型 融 吏 絮 不 存在 这 种 情况 。 后 高 腕 而 的 一 个 优势 古 ， 尺 管 罕 引 
偏 移 量 会 增加 索引 的 大 小 并 稍稍 拖 慢 索引 的 速度 ， 这 些 额 外 开销 要 比 
快速 向 量 高 之 器 增加 词 条 向 量 时 的 开销 更 低 。 


C.3.2 RRA Bee 


WS FASE TS FR RR IG) Be as, ERR 
termvector 设置 为 with positions_offsets。 这 样 做 允许 
Elasticsearch 识 别 词 条 及 其 在 文中 的 位 置 ， 而 无 须 再 次 分 析 字 段 内 容 。 
对 于 大 型 字段 (如 超过 1 MB 的 ) ， 人 快速 向 量 高 亮 器 


E ey oe AN CL fe) A ER o 


词 条 向 量 是 通过 词 条 维度 来 表示 文档 的 方式 。 例 如 ， 下 面 的 图 表 展 示 了 一 篇 拥有 


Elasticsearch 和 Logstash 词 条 的 文档 和 另 一 篇 仅仅 拥有 Elasticsearch 词 条 的 文 
档 。 


Logstash 


docl: Elasticsearch Logstash 


doc2: Elasticsearch —————————> Elasticsearch 


IPE DRA NAAT a, SRS EA [POS I Bt ZA 
来 对 文档 进行 排序 。 男 一 个 应 用 是 将 其 他 的 元 数据 加 入 每 篇 文档 (如 字段 的 总 体 大 小 ) ， 
这 也 将 影响 排序 。 


对 于 高 亮 ， 这 些 元 数据 必须 是 每 个 词 条 的 位 置 和 偏 移 量 列表 。 这 也 是 为 什么 快速 向 量 
高 亮 器 需要 with_positions_offsets 设置 。 和 替换 的 设置 是 no (也 是 默认 的 设置 ) ` 
yes `with_positions 和 with_offsets 。 


和 后 高 亮 器 相 比 ， 快 速 向 量 高 亮 器 占用 了 更 多 的 空间 ， 而 且 在 构建 索引 的 时 候 也 需要 
更 多 的 计算 资源 。 原 因 是 ， 虽 然 这 两 种 高 亮 器 都 需要 位 置 和 偏 移 量 ， 但 是 只 有 快速 向 量 高 
亮 器 才 要 计算 词 条 向 量 ， 这 在 默认 设置 中 是 被 关闭 的 。 


当 某 个 字段 的 term_vector 被 设置 为 
with_positions_offsets ，Elasticsearch 将 为 该 字段 自动 地 使 用 
快速 问 量 高 亮 硕 。 举 个 例子 ， 代 码 样 例 中 的 getrtogether 活 动 和 分 组 搞 
述 默认 地 使 用 了 这 种 高 亮 器 。 下 面 是 映射 中 的 相关 上 户 断 : 


"group" : { 
"properties" : { 
"description" : { 


"type" : "string", 
"term_vector": "with_positions_offsets" 


Ari see PAE, Te Se AY LE a Se eZ o PRR fe ae 
会 高 完 属 于 词组 的 词 条 ， 而 不 是 像 简单 型 高 之 器 在 代码 清单 C-9 所 做 的 
那样 高 亮 每 个 匹配 的 词 条 。 


PRR TR] Be Te Soa EEE AT BE 。 


。 它 和 多 字段 可 以 很 好 地 配合 ， 因 为 它 可 以 将 多 个 字段 的 匹配 融合 
为 同一 组 碎片 。 
。 如 果 有 多 个 单词 需要 高 亮 ， 可 以 使 用 不 同 的 标签 来 突出 显示 它 


fî] ° 
。 可 以 配置 如 何 选择 碎片 的 边界 。 
让 我 们 深入 了 解 一 下 每 个 特性 。 


1. 高 亮 多 个 字段 


在 3.3.2 节 中 ， 你 了 解 了 多 字段 ， 这 是 使 用 多 种 方式 来 索引 同样 的 
文本 的 方式 。 多 字段 是 一 种 很 好 的 调 优 搜索 的 方式 ， 但 是 ， 如 果 同 一 
个 字段 的 多 种 变化 形式 产生 了 不 同 的 匹配 ， 合 理 的 高 亮 可 能 是 需要 些 
技巧 的 。 以 代码 清单 C-10 为 例 ， 通 过 两 种 方式 来 分 析 description 
描述 字段 ， 默认 的 是 英文 分 析 器 english ， 使 用 词 干 来 匹配 search 
Allsearching 。 后 级 子 字 段 suffix 使 用 了 定制 分 析 器 ， 使 用 了 侧 边 
N 元 语法 来 匹配 拥有 相同 后 级 的 单词 ， 如 elasticsearch 和 search 
。 当 在 这 两 者 上 进行 multi_match 时 ， 简 单 型 高 亮 器 一 次 只 能 匹配 
一 个 字段 。 


代码 清单 C-10 ”简单 型 高 亮 器 在 多 字段 上 效果 不 佳 


curl -XPUT localhost:9200/multi -d '{ 
"Settings": { 
"analysis": { =--- 定 制 分 析 器 ， 只 考虑 每 个 词 条 的 最 后 5 个 字母 
"analyzer": { 
"my-suffix": { 


"tokenizer": "standard", 
"filter": ["lowercase", "suffix" ] 
} 
ty 
"filter": { 
"suffix": { 


"type": "edgeNGram", 
"min_gram": 5, 
"max_gram": 5, 
"side": "back" 


} 
} 


} 
ty 
"mappings": { 
"event": { 
"properties": { 
"description": { 
"type": "string", 
"analyzer": "english", ~--- 英 文 分 析 器 在 默认 的 字段 上 进行 词 干 
Di, 将 search 和 searching 进行 匹配 
"term_vector": "with_positions_offsets", 
"fields": { 
"suffix": { <---eHla tes AS RA, search 和 


searching 匹配 


"type": "string", 
"analyzer": "my-suffix", 
"term_vector": "with_positions_offsets" 


curl -XPUT localhost:9200/multi/event/1 -d '{ 
"description": "elasticsearch is about searching" 
1 
curl localhost:9200/multi/_refresh 
curl -XGET localhost:9200/multi/event/_search -d' 


"query": { 
"multi_match": { 
"query": "search", 


"fields": ["description", "description.suffix"] 


} 
ty 
"highlight": { =---- 简 单 型 高 亮 器 只 
"type" g "plain", 
"fields": { 
"description": {}, 
"description.suffix": {} 


} 


} 
} 1 
# reply 
"highlight": { 
"description": ["elasticsearch is about <em>searching</em>"], 


"description.suffix": ["<em>elasticsearch</em> is about 
searching" | 


这 里 快速 向 量 高 亮 器 就 能 帮 有 到 我 们 ， 因 为 它 可 以 将 多 个 字段 组 合 
到 一 个 ， 并 高 亮 所 有 的 匹配 。 它 只 需要 将 被 高 亮 字 段 的 
term_vector 设置 为 with_positions_offsets (这 也 是 快速 向 
量 高 亮 器 奏效 的 首要 条 件 ) 。 用 户 已 经 在 代码 清单 C-10 中 添加 了 这 
些 。 为 了 将 多 个 子 字 段 组 合 为 一 个 字段 ， 需 要 使 用 matched_fields 
选项 ， 告 诉 系统 希望 哪些 子 字段 被 高 亮 。 


"highlight": { 
"fields": { 
"description" 


"matched_fields": 


["description", "description. suffix" 


有 了 代码 清单 C-10 的 文档 和 查询 ， 就 将 获得 用 户 所 期 望 的 高 亮 。 


"highlight": { 
"description": ["<em>elasticsearch</em> is about 


<em>searching</em>" ] 


2. 为 不 同 的 碎片 使 用 不 同 的 标签 


为 了 将 第 一 个 高 之 的 单词 加 粗 ， 并 且 将 第 二 个 高 之 变 成 斜体 ， 用 
户 可 以 指定 一 组 标 釜 。 


"highlight": { 


"fields": { 
"description": 
"pre_tags": ["< b>", We em>"], 


"post_tags": ["< /b>", "< /em>"] 


WR ST PAS i ae ae, PRR Be a A IE 
TR: 将 第 三 个 加 粗 ， 将 第 四 个 变 成 斜体 ， 如 此 往复 。 如 果 有 太 多 的 单 
词 需要 高 亮 ， ee 用 户 可 以 将 tags_schema ix 
置 为 styled 达到 这 个 目的 ， 束 像 这 个 查询 : 


"query": { 
"match": { 
"description": "elasticsearch logstash kibana" 


} 
ty 
"highlight": { 
"tags schema": "styled", 


"fields": { 
"description": {} 


如 条 在 代码 样 例 中 的 文档 上 运行 这 个 查询 ， 获 得 的 第 一 个 名 字 高 
亮 看 上 去 站 这 样 的 : 


"highlight": { 
"description": [ 
"for what < em class=\"h1t1\">Elasticsearch< 


/em> 


is and how 
= it can be used for logging with < em class=\"hlt2\">Logstash< 
/em> 


as well 
= as < em class=\"h1t3\">Kibana< /em> 


这 人 允许 拿 到 类 的 名 称 (hltX ) 并 获知 哪些 单词 是 第 一 个 名 字 、 


哪些 是 第 二 个 ， 等 等 。 


3. 配置 边界 字符 


还 记得 C.2.1 节 中 ， 我 们 提 到 过 fragment_size 是 近似 的 ， 因 为 
Elasticsearch 试 图 确保 单词 不 要 被 截断 。 如 果 当 时 你 多 Bina T =f, 
ee MER EAARTARRF wea a 

实现 。 


WT ia iscas, PRR MAY SARS, ACRE ADA 
ARA © fA BAY Tea Sea CE BC tes ru AT) oR Ja LA Et R EB 
FRR A), CE SRA Ar I Fe “Pe Ro EE 
章 的 代码 清单 中 所 看 到 的 那样 ， 这 对 于 自然 语言 有 很 好 的 效果 ， 但 是 
在 其 他 用 例 中 如 来 单词 和 词 条 的 概念 并 不 重合 ， 那 么 它 可 能 束 古 有 问 
题 的 。 例 如 ， 如 采 在 索引 代码 ， 你 可 能 有 这 样 的 变量 定义 : 


variable_with_a_very_very_very_very_long_name = 1 


为 了 有 效 地 搜索 这 种 文本 ， 需 要 一 种 分 析 右 将 这 种 长 变量 进行 切 
分 ， 并 且 让 用 户 可 以 搜索 其 中 的 词 条 。 


j 户 可 以 使 用 模式 分 词 器 、(pattern tokenizer) 做 到 这 一 点 ， 其 中 可 以 指定 一 种 模式 包 
画 线 ， 如 (\|_) ， 它 将 切 分 空格 和 下 画 线 。 第 5 章 中 会 有 更 多 关于 分 析 器 和 分 词 器 的 


如 果 分 析 器 将 变量 切 分 为 多 个 分 词 ， 那 么 简单 型 高 亮 器 也 将 切 分 
该 变量 ， 即 使 你 不 想 它 这 样 做 。 例 如 ， 在 碎片 大 小 为 20 的 情况 下 ， 搜 
long 将 返回 如 下 结果 : 


very_very_very_very_<em>long</em>_name = 1 


快速 向 量 高 亮 器 的 运作 方式 有 所 不 同 ， 因 为 单词 不 再 是 词 条 。 此 
上 时， 单词 是 下 列 字 符 所 分 隔 的 字符 串 : ,，!? \t\n。 用 户 可 以 通过 
boundary_chars 来 修改 这 个 列表 。 当 该 高 亮 器 构建 碎片 的 时 候 ， 
它 将 在 boundary_max_scan (默认 是 20) 个 字符 中 查找 这 些 分 隅 字 
符 ， 限 制 通常 是 由 fragment_size 设置 。 如 果 扫 描 的 时 候 并 未 发 现 
这 样 的 边界 字符 ， 该 碎片 就 将 被 切断 。 默 认 地 ， 当 高 亮 Long 的 时 
候 ， 快 速 向 量 高 亮 器 将 截断 代码 样 例 。 


ry_very_<em>long</em>_name = 1 


用 户 可 以 通过 两 种 方式 来 修改 默认 的 行为 。 一 种 是 将 下 画 线 加 入 
边界 字符 的 列表 。 这 样 做 还 是 会 截断 变量 ， 不 过 是 以 更 可 预测 的 方 


"highlight": { 
"fields": { 
"description": { 
"fragment_size": 20, 
"boundary_chars": ".,!? \t\n_" 


# will yield 


very_very_< em>long< /em>_name = 1 


另 一 种 选择 是 将 boundary_chars 保留 为 默认 的 ， 而 将 
boundary_max_scan 进行 扩展 ， 这 将 增加 整个 变量 被 包含 到 碎片 的 
机 会 ， 即 使 它 意味 着 更 大 的 碎片 。 


variable_with_a_very_very_very_very_<em>long</em>_name = 1 


当 需 要 小 人 雄 片 的 时 候 ， 雄 片 边界 的 问题 通常 是 很 明显 的 。 对 于 较 
大 的 文本 块 ， 由 于 用 户 的 注意 力 往往 聚焦 在 高 亮 的 部 分 及 其 周遭 的 单 
词 而 不 是 整个 碎片 ， 不 准确 的 边界 对 于 用 户 而 言 就 没有 那么 明显 。 另 
一 个 配置 快速 向 量 高 亮 器 的 参数 是 Fragment_offset 。 有 了 这 个 参 
数 ， 就 可 以 控制 高 亮 开始 的 距离 。 


4. 为 快速 癌 量 高 亮 硕 限制 匹配 的 数量 


我 们 最 后 讨论 的 配置 选项 是 phrase_1limit 参数 。 如 果 快 速 向 量 
高 亮 器 匹配 了 很 多 词组 ， 它 将 消耗 大 量 的 内 存 。 默 认 情 况 下 ， 系 统 只 
会 使 用 前 256 项 匹配 。 用 户 可 以 使 用 phrase_1limit 参数 来 修改 这 个 


数量 。 


附录 D Elasticsearch 的 监控 插件 


Elasticsearch 社 区 提供 了 一 组 监控 性 能 的 插件 ， 让 集群 状态 和 索引 
的 管理 更 为 轻松 ， 而 且 让 我 们 可 以 通过 更 具 吸 引力 的 用 户 界 面 来 执行 
查询 。 这 些 插件 的 大 部 分 都 是 免费 的 ， 而 且 还 在 积极 开发 中 ， 感 谢 充 
满 活 力 的 Elasticsearch 社区 为 大 家 种 来 这 些 拥 有 良好 文档 的 插件 和 
REST API 接 口 。 


这 个 部 分 将 涵盖 最 为 流行 的 几 个 插件 : 


Bigdesk; 

ElasticHQ; 

Head; 

Kopf ; 

Elasticsearch Marvel ° 


这 些 插 件 都 有 很 好 的 文档 ， 而 且 得 到 了 开源 社区 或 者 是 公司 的 积 
极 支 持 ， 其 中 Elasticsearch Marvel 和 Sematext SPM 分 别 得 到 了 Elastic 公 
司 和 Sematext 公 司 的 支持 。 通 常 ， 选 择 哪个 监控 或 者 管理 界面 是 个 人 
喜好 问题 。 如 果 寻 找 的 是 商业 化 的 解决 方案 ， 有 两 个 选择 。Marvel 和 
Sematext 都 是 可 以 承受 的 、 被 其 公司 积极 维护 和 文 持 的 插件 。Sematext 
除了 Elasticsearch 监 探 之 外 ， 还 提供 了 额外 的 好 处 。 不 过 ， 除 非 用 户 需 
要 的 是 对 架构 全 站 范围 的 监控 ， 否 则 选择 还 是 比较 清楚 的 。Bigdesk、 
ElasticHQ、Head 和 Kopf 有 很 多 相似 的 功能 ， 使 得 用 户 的 决定 变 得 微妙 
起 来 。 由 于 这 些 解 决 方案 的 部 署 或 安 效 都 需要 几 分 钟 ， 我 们 的 经 验 是 
多 数 用 户 只 是 尝试 每 一 个 ， 直 到 发 现 最 适合 的 。 有 有 时候， 最终 的 决定 
取决 于 用 户 界 面 的 易 用 性 。 


D.1 Bigdesk: 将 集群 可 视 化 


Bigdesk， 如 图 D-1 所 示 ， 是 Luk& Vltek 的 创作 ， 自 版 本 0.17.0 的 
Elasticsearch 起 就 提供 了 一 个 良好 的 监控 插件 的 用 户 界 面 。Bigdesk 提 


pe 图 表 和 统计 数据 ， 人 允许 用 户 可 视 化 集群 中 发 生 的 实时 性 变 


Bigdesk 最 受 欢 迎 的 ， 也 是 其 他 插件 罕有 的 特性 之 一 ， 残 是 可 视 化 
集群 拓扑 结构 的 能 力 。 本 书 中 ， 使 用 get-together 应 用 案例 构建 的 集群 
可 视 化 如 图 D-2 所 示 。 


JVM 
VM name: Java HotSpot(TM) 64-Bit Server VM Uptime: 41.58 
VM vendor: Oracle Corporation Java version: 1.8.0 
VM version; 25.0-b70 PID: 40561 
Heap Mem Non-Heap Mem i Threads GC (A) 
som a [pn 
200M 
30M 60 
100M 20M - '© Time both (sac) 
Committed © Committed © Peak © Old gen count 
moO oon 2 gangen a 
T T T 0 
08 2 z o5 2 2 % :0 as 各 25 2 z 
Committed: 255.8mb Committed: 46.3mb Peak: 81 Total time (O/Y): 7ms / 214ms 
Used: 25.5mb Used: 45.6mb Count: 78 Total count (O/Y): 1/210 
Thread Pools 
Search Index Bulk Refresh 


图 D-1 Bigdesk 界 面 


图 D-2 Bigdesk 使 get-togethet 集 群 的 可 视 化 更 容易 


这 个 特性 是 相当 细 粒 度 的 ， 允 许 用 户 查看 部 团 在 集群 中 的 节点 、 
分 片 和 索引 的 细节 。 


由 于 Bigdesk 是 使 用 Elasticsearch REST API 接 口 进行 通信 的 ， 可 以 
通过 3 种 方式 来 使 用 它 。 


。 作为 服务 融 端 安装 的 插件 。 
e 从 Bigdesk. Org 的 网 站 。 
。 下 载 并 安装 到 本 地 。 


D.2 ElasticHQ: 监控 和 管理 


ElasticHQ 为 监控 提供 了 实时 的 分 析 ， 为 管理 提供 了 创建 i 
删除 别名 、 枫 射 和 索引 的 能 力 ， 为 Elasticsearch 集 群 上 的 搜索 提供 了 
个 便捷 的 查询 界面 。 最 近 的 趋势 是 ， 许 多 的 监控 插件 开始 扩展 到 用 于 
apie a 理 以 及 查询 界面 。 图 D-3 展 示 了 ElasticHQ 主 要 的 索引 
管理 界面 ， 它 通过 易 用 的 界面 让 用 户 可 以 实时 地 修改 索引 。 


Cluster Overview B 
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图 D-3 ElasticHQ 界 面 


ElasticHQ 不 仅仅 是 一 个 实时 的 监控 插件 ， 它 还 允许 索引 和 映射 的 
创建 ， 而 且 它 还 提供 了 一 个 查询 的 界面 和 REST 接 口 的 用 户 界面 ， 让 用 
户 可 以 调试 Elasticsearch 的 端点 请 求 。 


目前 为 止 ， 该 插件 最 有 价值 的 特性 是 它 诊断 集群 的 能 力 ， 可 以 设 
置 规则 让 其 回 用 户 警 示 集 群 中 的 问题 来 源 。 这 些 诊断 的 规则 会 测量 
Elasticsearch 中 进程 、 操 作 系统 和 用 户 界 面 变 量 的 取 值 ， 如 果 它 们 超过 
了 一 定 的 阐 值 ， 那 么 就 会 触发 警告 和 报警 ， 如 图 D-4 所 示 。 


由 于 ElasticHQ 是 通过 Elasticsearch 的 REST API 接 口 进行 通信 ， 所 
以 可 以 通过 3 种 方式 使 用 它 。 


。 TEAM A axl ZAR ATF ° 


ss Summary 


Node Name: Marsha Rosenberg 
IP Address: 127.0.0.1:9300 
Node ID: Up5R1TeWSiSLBIFKNcGGmw 
ES Uptime: 0.00 days 


ss File System 


Store Size: 28.3KB 
# Documents: 20 
Documents Deleted: 0% 
Merge Size: 0.0 
Merge Time: 00:00:00 
Merge Rate: 0 MB/s 
File Descriptors: 264 


s= Index Activity 


Indexing - Index: Oms 
Indexing - Delete: Oms 
Search - Query: Oms 
Search - Fetch: Oms 
Get - Total: Oms 
Get - Exists: Oms 
Get - Missing: Oms 


图 D-4 ”市 点 诊断 的 截屏 


。 从 ElasticHQ.org 的 网 站 。 
。 下载 并 安装 到 本 地 。 


D.3 Head: 高 级 的 查询 构建 


Head 是 最 早出 现 的 插件 之 一 。 尺 管 它 出 现 了 很 长 的 时 间 而 且 用 户 
界面 也 没有 太 大 的 变化 ，Head 插 件 还 是 在 积极 开发 中 ， 增 加 新 的 特性 
并 支持 新 版 的 Elasticsearch ° 


Head 的 界面 非常 容易 使 用 (如 图 D-5 所 示 ) ， 并 且 提 供 了 一 个 强 
大 的 查询 构建 工具 ， 让 用 户 可 以 创建 复杂 的 查询 而 无 须 使 用 cURL 或 在 
命令 行 的 REST 工 具 中 手动 地 创建 。 

Head 可 以 通过 两 种 方式 来 运行 : 


。 作为 服务 硕 端 安装 的 插件 ; 
。 下 载 并 安 痛 到 本 地 。 


图 D-5 ”Head 界面 


D.4 Kopf: HR ` WAAAY eat 


Kopf， 一 个 德 文 单词 ， 翻 译 为 英文 就 是 “Head”， 是 最 近 较 新 的 插 
件 ， 通 过 一 个 易 使 用 和 吸引 人 的 用 户 交 互 为 Elasticsearch 提 供 了 完整 的 
管理 界面 ， 如 图 D-6 所 示 。 


AID-6 Kopf M 


Kopf E TRE 5 a PP ASE PRA E, MVRR ` Bisa 
IITR AS a OAPI © Bis ar ATA a A FP FA TT PA 5 ok ET E 


而 又 不 想 学 习 所 有 API 命 令 的 用 户 而 言 是 非常 方便 的 。Kopf 甚 至 为 硕 
望 紧密 控制 和 管理 Elasticsearch 实 例 的 用 户 提供 了 一 个 REST 用 户 界 
面 ， 让 他 们 可 以 在 运行 的 集群 上 执行 格式 化 的 JSON 请 求 。 


Kopf 可 以 通过 下 列 方式 运行 


。 FEA ARH aati LATE 
。 在 线 ; 
。 PBF RAEI ARH o 


D.5 Marvel:， 细 粒度 的 分 析 


Elasticsearch Marvel] 是 Elasticsearch 提 供 的 一 个 商业 化 的 监控 方 
案 。 它 拥有 吸引 人 的 可 视 化 用 户 界面 (如 图 D-7 所 示 ) ， 人 允许 用 户 深 
入 洞察 运行 中 的 集群 ， 如 操作 系统 、JVM 虚 拟 机 、 搜 索 和 索引 请 求 性 
能 的 下 钻 视 图 。 


图 D-7 Marvel 界 面 


作为 服务 器 端 安装 的 插件 ，Marvel 的 优势 在 于 提供 了 历史 数据 的 
分 析 ， 还 有 实时 性 的 缓存 大 小 、 内 存 细 市 和 线程 池 等 性 能 信息 。 


随 着 REST API 接 口 不 断 发 展 ，Marvel 将 包含 最 强大 的 一 组 特性 ， 
提供 相应 的 高 级 功能 ， 如 上 下 文 感知 的 建议 、 词 条 和 端点 的 目 动 完成 
(如 图 D-8 所 示 ) ° 


eea g 127.0.0.1:9200 


1 GET _search pA/ 

2- { 

3r "query": { 

4 "match_all": {}, 

5 “tir 

B6- } filtered API 

74- } field API 
custom_filters_score API 
more_like_this_field API 


图 D-8 REST 请 求 的 自动 完成 


在 撰写 本 书 的 时 候 ，Marvel 已 经 可 免费 用 于 开发 。Marvel 产 品 的 
安装 从 前 5 个 节点 每 年 收取 至 少 1000 美 金 。 由 于 Elasticsearch Marvel 需 
要 存储 并 分 析 历 史 数 据 ， 它 只 能 在 服务 絮 端 安 狼 。 其 安装 的 方式 和 之 
前 提 到 的 揪 件 有 所 不 同 : Marvel 必 须 在 服务 器 上 直接 安装 ， 然 后 通过 
Webi bias Wi IH] ° 


D.6 Sematext SPM: 瑞士 军刀 


Sematext 长 期 以 来 提供 基于 云 部 署 的 集中 式 日 志 管 理 。 近 些 年 ， 
其 产品 线 延 伸 到 分 布 式 系统 的 实时 性 能 监控 ， 当 然 也 包括 
Elasticsearch ° Sematext SPM， 如 图 D-9 所 示 ， 提 供 了 云 系统 中 的 性 能 
监控 、 碍 询 的 能 力 、 报 警 以 及 异常 侦 测 。 


overview 


Rate & Volur © Actions < User Sessions 
Rate & Volume D oor 20 2 oR, 
= : ‘i it N : i 
20 A A i q 
of | : aes Mf w AN AD 8 Fen 
URG o Minita TRAHI Mm. es 0 1M UU Leif NA NR oF 
ras ie Ff r SF we se S SF SF oF ¥ 
W ‘queries 'distir ‘que id" ‘sess queries per session’ 
Latency Buckets 
Queries by Number of Hits 2 
Top Queries 40 
2867 
Query Frequency 13.33 
Pagin oe o 
Sorting 
= pag 
Terms Cot unts E page 
= 


Click Stats 


nunun 
283393 


图 D-9 Sematext 界 面 


SPM 比 之 前 提 到 的 解决 方案 更 进一步 ， 为 Elasticsearch 提 供 了 一 组 
丰富 的 报警 和 通知 设置 ， 甚 至 还 可 用 于 用 户 部 署 的 其 他 架构 ， 如 
Apache Kafka、NGINX、Hadoop、MySQL 等 。 报 警 可 以 是 基于 电子 邮 
件 的 ， 它 们 可 以 将 报警 数据 发 送 到 男 一 个 Web 服 务 或 者 是 和 其 他 监 
控 、 协 作 应 用 相 集 成， 例如 Atlassian HipChat 或 Nagios ° 


当然 ，SPM 最 吸引 我 们 的 是 多 合 一 的 性 能 监控 仪表 盘 ， 它 让 用 户 
可 以 观察 所 有 部 署 架 构 的 全 局 ， 还 能 直接 下 钻 到 在 他 们 Elasticsearch 集 
群 上 所 采集 的 实时 度量 指标 (如 图 D-10 所 示 ) 。 话 虽 如 此 ，SPM 不 像 
我 们 所 讨论 的 某 些 其 他 选项 那样 是 免费 的 ， 但 是 其 价格 是 根据 使 用 情 
况 (CPU/ 每 小 时 而 变化 的 。 


Sematext 可 以 通过 如 下 方式 获取 。 


。 预 置 安装 ; 
。 在 线 服 务 www.sematext.com ° 


本 附录 只 涵盖 了 现 有 的 Elasticsearch 监 控 和 管理 解决 方案 中 的 一 小 
a7 °。 现 有 可 用 的 、 有 社区 支持 的 监控 插件 可 以 在 其 官方 网 站 上 找 
ie 


尽管 Elasticsearch 提 供 了 一 个 完整 和 详尽 的 REST API 接 口 ， 为 了 
可 视 化 在 线 和 历史 数据 的 能 力 ， 花 上 几 分 钟 安装 这 里 所 讨论 的 任何 一 
个 插件 都 是 值得 一 试 的 。 


Application Alerts 


| Alerts | Alert Rules Notification Transports PagerDuty Nagios WebHooks HipChat 


Alerts Integrate with PagerDuty » 

Show 10 $ Search by message: 
Bi jormal 

Message w Sent 

The avg{nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.91. Triggered at 07-14-2015 06:42:00 UTC. 1 month ago No No 

The avg(nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.73. Triggered at 07-14-2015 06:41:00 UTC. ith ago No No 

The avg{nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.60. Triggered at 07-14-2015 06:40:00 UTC. 1 month ago No No 

The avg{nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.40. Triggered at 07-14-2015 06:39:00 UTC. ith ago No No 

The avg(nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.18. Triggered at 07-14-2015 06:38:00 UTC. 1 month ago No No 

The avg(nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.00. Triggered at 07-14-2015 06:37:00 UTC. ith ago No No 

The avg{nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.00. Triggered at 07-14-2015 06:36:00 UTC. 1 month ago No No 

The avg(nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.00. Triggered at 07-14-2015 06:35:00 UTC. ith ago No No 

The avg{nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.00. Triggered at 07-14-2015 06:34:00 UTC. th ago No No 

The avg(nodes) < 2.0 for 300 seconds for application Event.Prod.Elasticsearch . Current value is 1.00. Triggered at 07-14-2015 06:33:00 UTC. ith ago No No 
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图 D-10 ”报警 和 通知 的 


附录 E TAA te a BOR 


Elasticsearch 的 渗 滤 器 (percolator) iH fi BE CATR AWE 
， 原 因 有 以 下 几 个 。 


索引 的 是 查询 而 不 是 文档 。 这 会 在 内 存 中 注册 查询 ， 所 以 之 后 可 
以 很 快 地 运行 查询 。 

将 文档 发 送 到 Elasticsearch， 而 不 是 将 查询 发 送 到 Elasticsearch ° 
这 被 称 为 渗 滤 文档 ， 基本 上 了 珑 是 将 其 索引 到 -个 小 型 的 、 内 存 中 
的 索引 。 注 册 的 查询 就 在 这 个 小 型 的 索引 上 运行 ， 这 样 
Elasticsearch 可 以 发 现 哪些 查 询 和 文档 匹配 o 

可 以 获得 和 该 文档 匹配 的 一 系列 查询 ， 而 不 是 像 普通 搜索 那样 的 
方式 获取 和 查询 匹配 的 一 系列 文档 。 


典型 的 渗 滤 器 使 用 场景 是 提醒 。 如 图 E-1 所 示 ， 可 以 在 者 文档 《和 
用 户 兴趣 匹配 ) 出 现 的 时 候 通 知 用 户 。 


2 


注册 的 查询 : 


query: Brg: 
1 match: title: Introduction 
title: elasticsearch to Elasticsearch 


query: 
2 match: 
title: python 


匹配 : 1 个 


Elasticsearch 


Elasticsearch 
的 新 活动 ! 


用 户 


图 E-1 典型 的 使 用 场景 : 渗 滤 一 篇 文档 ， 如 果 应 用 程序 存储 了 和 文档 相 匹配 的 查询 ， 让 其 向 
用 户 发 送 提醒 


如 图 E-1 所 示 ， 使 用 全 书 中 get-together 站 点 的 例子 ， 可 以 让 会 员 定 
义 他们 的 兴趣 ， 而 且 将 它们 存储 为 渗 滤 右 查 询 。 当 加 入 新 的 活动 时 ， 
可 以 使 用 查询 对 其 进行 渗 滤 。 当 有 匹配 的 时 候 ， 可 以 将 邮件 发 送 到 相 
应 的 用 户 ， 告 诉 用 户 有 符合 他 们 兴趣 的 新 活动 。 

接 下 来 ， 我 们 将 描述 如 何 使 用 渗 滤 名 来 实现 这 些 通知 。 之 后 将 解 
释 在 内 部 是 如 何 运 作 的 ， 最 后 将 讨论 和 性 能 以 及 功能 相关 的 技巧 。 


E.1 活 滤 器 的 基础 


活 滤 各 需 要 3 个 步 桑 。 
。 | 用 的 所 有 字段 ， 确 保 在 合适 的 地 方 都 有 其 映 


。 注册 查询 。 
。 渗 滤 文 档 。 


图 E-2 展 示 了 这 些 步 又。 


第 1 步 添加 映射 : 第 2 步 注册 查询 : 
query: 第 3 步 渗 滤 : 
1 match: title: Introduction 
title: elasticsearch to Elasticsearch 
query: 
2 match: 
: 14% 
title: python 匹配 | 
Elasti h 


图 E-2 ”需要 一 个 映射 和 一 些 注册 查询 来 渗 滤 文档 


下 面 将 仔细 探讨 这 3 个 步骤 ， 然 后 是 渗 滤 右 是 如 何 工 作 的 ， 以 及 有 
哪些 局 限 。 


E.1.1 定义 映射 、 注 册 查 询 ， 然 后 渗 滤 文档 


假设 想 为 任何 新 的 Elasticsearch Percolator 活 动 发 生 提 醒 。 在 注册 
查询 之 前 ， 需 要 为 查询 的 运行 准备 一 个 所 有 字段 的 映射 。 在 我 们 get- 
， 例子 中 ， 如 果 兽 经 运行 了 代码 样 例 的 populate.sh， 那 么 可 能 
经 拥有 了 分 组 和 活动 的 上 映射。 如 果 尚 未 这 么 做 ， 可 以 从 
a github.com/ dakrone/elasticsearch-in-action 下 载 代码 样 例 ， 并 运行 
populate.sh ° 


有 了 代码 样 例 中 的 数据 ， 就 可 以 注册 一 个 查询 来 查找 title 标题 
字段 中 的 Elasticsearch Percolator 关键 词 。 由 于 运行 了 
populate.sh， 因 此 title 字段 的 映射 整 已 经 存在 了 。 


% curl -XPUT 'localhost:9200/get-together/.percolator/1' -d '{ 
"query": { 
"match": { 


"title": "elasticsearch percolator" 


请 注意 ， 请 求 的 主体 是 match 查询 ， 但 是 为 了 注册 这 个 查询 ， 必 
须 通 过 PUT IRRA, WRI — fa LARE © Jy T 1LLElasticsearch 
知道 这 不 是 普通 的 文档 ， 而 是 一 个 渗 滤 查询 ， 必 须 指 
定 .percolator 的 类 型 。 


正如 你 所 期 望 的 那样 ， 用 户 可 以 在 任何 时 候 、 添 加 任意 多 的 查询 。 
所 以 新 的 查询 一 旦 被 添加 ， 它 就 会 在 渗 滤 过 程 中 生效 。 


渗 滤 器 是 实时 的 ， 


映射 和 查询 就 绪 之 后 ， 就 可 以 开始 渗 小 文档。 为 了 实现 这 一 点 ， 
需要 访问 文档 所 在 类 型 的 _percolate 端点 ， Sie MARE 
doc 字段 的 下 面 。 


% curl 'localhost:9200/get-together/event/_percolate?pretty' -d '{ 
"doc": { 
"title": "Discussion on Elasticsearch Percolator" 


} 


PO 
用 户 将 获得 一 系列 匹配 的 碍 询 ， 由 索引 的 名 称 和 ID 唯一 标识 。 


"total" 
"matches" 


"index" Ea U aa a 


" _id" 


如 果 在 同一 个 索引 中 ， 注 册 了 很 多 的 查询 ， 那 么 可 能 只 希望 看 到 ID 来 简化 答复 的 内 
容 。 为 了 实现 这 一 点 ， 在 请 求 的 URI 中 加 入 percolate_format=ids 参数 。 


接 下 来 看 看 渗 滤器 是 如 何 工作 的 ， 以 及 有 哪些 局 限 。 
E.1.2 后 人 台 的 渗 滤 器 


在 刚刚 进行 的 渗 滤 中 ，Elasticsearch 加 载 了 已 经 注册 好 的 查询 ， 然 
后 在 包含 渗 滤 文档 的 微小 的 、 内 存 中 的 索引 上 运行 这 些 查 询 。 如 果 注 
册 了 多 个 查询 ， 那 么 所 有 的 查询 都 会 在 这 个 微小 的 索引 上 运行 。 


1. 注册 查询 


在 Elasticsearch 中 ， 查 询 通 党 被 表示 为 JSON 格 式 ， 束 像 文档 那 
样 。 当 注册 一 个 查询 的 时 候 ， 它 被 存储 到 用 户 所 指 的 索引 
的 .percolator 类 型 中 。 这 对 于 持久 性 而 言 非常 好 ， 因 为 查询 束 像 
其 他 任何 的 文档 那样 被 存储 。 除 了 存储 查询 ，Elasticsearch 还 将 查询 加 
载 到 内 容 中 ， 便 于 其 快速 地 执行 。 


由 于 注册 后 的 碍 询 是 被 分 析 过 才 的 ， 而 且 存储 在 内 存 中 ， 因 此 需要 确保 每 个 节点 上 有 足 
够 的 堆 内 存 来 保持 这 些 查询 。 在 E.2.2 节 ， 我 们 将 看 到 处 理 大 量 查询 的 一 种 方式 ， 它 将 为 渗 
小 使 用 分 隔 的 索引 (或 者 说 是 更 多 的 索引 ) 。 如 此 一 来 就 可 以 独立 于 实际 的 数据 ， 对 渗 滤 


进行 水 平 的 扩展 


2. 注销 查询 


为 了 注销 一 个 查询 ， 必 须 使 用 .percolator 类 型 和 该 查询 的 
ID， 将 其 从 索引 中 删除 。 


% curl -XDELETE 'localhost:9200/get-together/.percolator/1' 


由 于 查询 也 加 载 到 了 内 存 中 ， 删 除 查 询 并 不 忌 古 能 注销 查询 。 通 
TEA Bae AE Pa Bia), (Ee TERR LA, 1 
查询 来 删除 的 请 求 并 未 注销 内 存 中 正在 匹配 的 查询 。 要 做 到 这 一 

点 ， 需 要 重新 打开 索引 ， 例 如 : 


% curl -XDELETE 'localhost:9200/get-together/.percolator/_query? 
g=*:*' 
# right now, any deleted queries are still in memory 


% curl -XPOST 'localhost:9200/get-together/_close' 
% curl -XPOST 'localhost:9200/get-together/_open' 
# now they're unregistered from memory, too 


3. 渗 滤 文档 


当 渗 滤 一 篇 文档 的 时 候 ， 这 篇 文档 首先 被 索引 到 内 存 中 的 一 个 索 
人 查询 都 在 这 个 索引 上 运行 ， 看 看 哪些 查询 和 该 文 
H 


由 于 每 次 只 能 渗 滤 一 篇 Elasticsearch 文 档 ， 在 版 本 1.4 中 ， 第 8 章 介 
绍 的 父子 关系 查询 不 能 用 于 活 滤 器 ， 因 为 这 种 查询 意味 着 多 篇 文档 。 
此 外 ， 用 户 总 是 可 以 向 同一 个 父辈 添加 新 的 子 辈 ， 而 系统 很 难 在 内 存 
索引 中 保持 所 有 相关 的 数据 。 


Wk ZF, RENAE, SA ARKENW Ae 
索引 到 同一 篇 Elasticsearch 的 文档 中 。 可 以 参考 代码 清单 E-1 中 的 例 
子 ， 它 根据 舱 套 的 参与 者 名 字 来 渗 滤 活动 。 


代码 清单 E-1 “Bes + RAMEE SAAT 


curl -XPUT 'localhost:9200/get-together/_mapping/nested-events' -d 
'{ 
"properties": { 
"title": { "type": "string" }, 
"attendee-name": { <--- 将 参与 者 的 名 字 定 义 为 藤 套 类 型 
"type": "nested", 
"properties": { 
"first": { "type": "string" }, 
"last": { "type": "string" } 


} 
} 
4 
curl -XPUT 'localhost:9200/get-together/.percolator/1' -d '{ 
"query": { 
"nested": { "path": "attendee-name", <---j/EMt—-PREAIA 
"query": { 
"pool": { 
"must": [ 
{ "match": { 
"attendee-name.first": "Lee 
th, 
{ "match": { 
"attendee-name.last": "Hinman 
}} 
] 
} 
} 
} 
} 
}' 
curl 'localhost:9200/get-together/nested-events/_percolate?pretty' 
-d '{ 
"doc" 
"title": "Percolator works with nested documents", 


"attendee-name": [ 


{ "first": "Lee 
" "last": "Hinman 
" }， ~~ REA CS AE A A 


{ "first": "Radu", "last": "Gheorghe" }, 
{ "first": "Roy", "last": "Russo" } 


PES ECARD, i — irs RAY SCE te Be CPU 资 
UR o BEAT ZR BY REHEAT FE A A ce So HAT, 
使 用 N 元 语法 而 不 是 通配符 或 者 正则 表达 式 。 用 户 可 以 参考 第 10 章 获 
取 更 多 性 能 测 优 鸭 技巧 ， 而 10.4.1 下 描述 了 NN 元 误 法 和 通 配 得 之 辣 的 均 
了 衡 。 


用 户 可 能 非 音 关心 渗 滤 操 作 的 性 能 ， 下 面 这 一 节 将 根据 用 例 ， 同 
你 展示 和 渗 滤 相关 的 技巧 。 


E.2 ”性能 小 贴 士 


对 于 不 同 的 渗 滤 如 使 用 场景 ， 可 以 做 不 同 的 事情 来 优化 性 能 。 在 
下 面 的 章节 ， 我 们 来 看 看 最 重要 的 一 些 技术 ， 它 们 可 以 分 为 两 大 类 。 


。 优化 请 求 或 者 回复 的 格式 一 一 可 以 渗 滤 现 有 文档 、 在 一 个 请 求 中 
渗 滤 多 篇 文档 ， 并 只 请 求 匹 配 查 询 的 数量 而 不 是 整个 ID 列 表 。 

。 优 化 查询 组 织 的 方式 一 一 正如 之 前 所 述 ， 可 以 使 用 一 个 或 多 个 分 
隅 的 索引 来 存储 注册 的 碍 询 。 这 里 ， 将 使 用 这 条 建议 ， 而 且 我 们 
还 将 讨论 如 何 使 用 路 由 和 过 渡 占 来 减少 每 次 渗 滤 时 所 运行 的 查询 


数量 。 


E.2.1 请求 和 回复 的 选项 


在 某 些 用 例 中 ， 可 以 在 网 络 中 传输 更 少 的 请 求 和 数据 。 这 里 来 看 
看 可 以 实现 这 一 点 的 3 种 方法 。 


。 渗 滤 现 有 的 文档 。 
。 使 用 多 条 渗 滤 ， 也 束 古 渗 滤 操作 的 bulk 批 量 API 接 口 。 
。 统 计 匹 配 查 询 的 数量 ， 而 不 是 获取 整个 列表 。 


1. 渗 滤 现 有 的 文档 


如 有 果 要 渗 滤 的 就 是 用 户 要 索引 的 ， 那 么 这 个 方法 相当 不 错 ， 尤 其 
征 在 文档 很 大 的 时 候 。 例 如 ， 索 引 博 客 帖 子 的 时 候 ， 每 篇 帖子 都 通过 
HTTP 发 送 两 次 可 能 是 很 慢 的 : 一 次 用 于 索引 ， 一 次 用 于 提醒 趣味 相投 
的 帖子 关注 者 。 这 种 情况 下 ， 索 引 某 骗 文 档 之 后 ， 通 过 ID 来 渗 着 而 不 
EHAKE, WRAN T ° 


ally 


渗 滤 现 有 的 文档 并 不 适用 于 所 有 的 用 例 。 例 如 ， 如 果 社 交 媒 体 的 帖子 有 地 理 位 置 的 字 
段 ， 则 可 以 注册 匹配 每 个 国家 区 域 的 地 理 查 询 。 这 样 ， 就 可 以 渗 滤 每 篇 帖子 来 决定 其 起 源 
的 国家 ， 并 在 索引 该 文档 前 将 这 些 信息 加 入 到 帖子 中 。 这 种 使 用 场景 下 ， 需 要 先 渗 滤 再 进 
行 索 引 ， 按 照相 反 的 顺序 进行 就 没有 意义 了 。 确 定 起源 国 家 的 用 例 在 这 个 Elastic 的 博客 帖 
中 有 所 描述 : www.elastic.co/blog/ using-percolator-geo-tagging/ ° 


号 


代码 清单 E-2 注 册 一 个 匹配 elasticsearch 分 组 的 查询 。 然 后 ， 
将 使 用 ID 2 渗 滤 分 组 (Elasticsearch Denver) 。 该 文档 已 经 被 索引 ， 
此 无 须 再 次 发 送 其 内 容 。 


代码 清单 E-2 ” 渗 滤 现 有 的 分 组 文档 


curl -XPUT 'localhost:9200/get-together/.percolator/2' -d '{ 
"query": { =--- 匹 配 Elasticsearch 分 组 的 查询 ，.percolator 的 ID 2 和 
HID 2 没有 关系 
"match": { 
"name": "elasticsearch" 


} 


curl 'localhost:9200/get-together/group/2 


/_percolate?pretty' =--- 渗 滤 现 有 的 ELlasticsearchDenver H (ID 为 2) 


2. 多 条 渗 滤 的 API 接 口 


无 论 是 否 渗 滤 现 有 的 文档 ， 用 户 可 以 一 次 进行 多 个 渗 滤 操作 。 如 
果 用 户 也 进行 了 匹配 的 bulk 批 量 索 引 ， 这 一 点 就 很 有 效 末 。 例 如 ， 可 
以 通过 为 每 个 标签 注册 一 个 查询 ， 使 用 渗 滤 器 进行 目 动 化 的 博客 帖 打 
标 。 当 处 理 批 量 帖 子 的 时 候 ， 可 以 进行 如 图 E-3 所 示 的 操作 。 


(1) 通过 多 条 渗 滤 的 API 接 口 ， 一 次 渗 小 全 部 的 内 容 。 然 后 ， 在 
你 的 应 用 程序 中 ， 添 加 匹配 的 标签 。 请 注意 这 里 渗透 的 API 只 返回 匹 
配 查 询 的 ID。 应 用 程序 需要 将 渗 滤 查询 的 ID 和 标签 映射 起 来 ， 也 就 是 
说 它 必 须 将 1 和 elasticsearch 匹配 ， 将 2 和 release 匹配 ， 将 3 
和 book 匹配 ， 等 等 。 另 一 种 方法 是 ， 对 过 滤 碍 询 分 配 和 标签 内 容 一 
致 的 ID。 


an pe 通过 我 们 第 10 章 介绍 的 bulk 批 量 API 接 口 ， 一 次 性 地 
| Eup a 


第 1 步 BAB 第 2 步 批量 Bulk 索 引 


帖子 1 
帖子 1 


title: New Elasticsearch Release 


title: New Elasticsearch Release 
tags: [elasticsearch, release] 


帖子 


title: New Elasticsearch Book 
tags: [elasticsearch, book] 


帖 孔 


title: New Elasticsearch Book 


a 


帖子 1 匹配 : 1, 2 
帖子 2 匹配 : 1，3 


类 型 : BUM 类 型 :帖子 
query: 
1 match: a eben rua vet? 
title: elasticsearch 帖子 1 
| title: New Elasticsearch Release 
. | tags: [elasticsearch, release] i 
query: ih Sees E R E P A NS 
2 match: j 帖子 ! 
title: release en s 
1 title: New Elasticsearch Book 
tags: [elasticsearch, book] 
query: Da 
3 match: 
title: book 


索引 : 博客 


T 自动 打 标 的 渗 滤 器 。 a e Sica ne a 
°。 在 第 1 步 之 前 ， 渗 滤 查 询 就 已 经 被 索引 了 。 在 第 1 步 中 ， 你 使 用 了 多 条 渗 滤 的 API 来 发 现 匹 
CBI 询 。 应 用 程序 将 ID 和 标签 进行 映射 ， 并 将 它们 加 入 待 索引 的 文档 。 在 第 2 步 中 ， 你 
使 用 了 批量 的 bulk 索 引 API 来 索引 文档 


请 注意 ， 发 送 同样 的 文档 两 次 ， 一 次 为 渗 滤 而 另 一 次 为 索引 ， 确 
实 会 增加 网 络 的 流量 开销 。 其 优势 在 于 ， 即 使 你 使 用 了 更 新 操作 来 添 
加 标签 ， 也 无 须 再 次 索引 这 篇 文档 。 如 采 先 索引 文档 ， SR 


行 渗 滤 ， 最 后 使 用 批量 更 新 的 API 来 更 新 索引 的 文档 ， 那 么 这 里 介 
的 方式 也 十 个 殖 换 方案 。 


在 代码 清单 E-3 中 ， 将 实施 图 E-3 所 描述 的 操作 。 


代码 清单 E-3 ”使 用 多 条 渗 滤 和 bulk 批 量 API 接 口 来 实现 自动 打 标 签 


curl -XPUT localhost:9200/blog -d '{ 


"mappings": { 
"posts": { 
"properties": { 
"title": { 
"type": "string" 。--- 首 先 创建 索引 ， 以 及 title 标 题字 段 
HIRES) 
} 
} 
} 
} 
echo '{"index" : {"_index" : "blog", "_type" : 


" percolator", "_id": "1"}} 
{"query": {"match": {"title": "elasticsearch"}}} 


{"index" : {"_index" : "blog", "_type" : ".percolator", 
" jid" : "2"}} 

{"query": {"match": {"title": "release"}}} 

{"index" : {"_index" : "blog", "_type" : ".percolator", 
" jd" i "3"}} 


{"query": {"match": {"title": "book"}}} 

' > bulk_requests_queries =--- 你 可 以 使 用 bulk 批量 API 来 注册 查 
询 ， 就 像 你 使 用 索引 API 那样 

curl 'localhost:9200/_bulk?pretty' --data-binary 
@bulk_requests_ queries 


echo '{"percolate" : {"index" : "blog", "type" : "posts"}} 
{"doc": {"title": "New Elasticsearch Release"}} 
{"percolate" : {"index" : "blog", "type" : "posts"}} 


{"doc": {"title": "New Elasticsearch Book"}} 
' > perc_requests =--- 多 条 渗 滤 将 返回 每 篇 渗 滤 文档 的 所 有 匹配 


curl 'localhost:9200/_mpercolate?pretty' --data-binary 
@perc_requests 


echo '{"index" : {"_index" : "blog", "_type" : "posts"}} 

{"title": "New Elasticsearch Release", "tags": 
["elasticsearch", "release"]} 

{"index" : {"_index" : "blog", "_type" : "posts"}} 

{"title": "New Elasticsearch Book", "tags": 


["elasticsearch", "book" ]} 

' > bulk_requests -- - -了解 哪些 标签 对 应 于 哪些 帖子 ， 你 也 可 以 索引 带 有 
标签 的 帖子 

curl 'localhost:9200/_bulk?pretty' --data-binary 
@bulk_requests 


请 注意 多 条 过 滤 API 和 bulk 批 量 API 有 哪些 相似 和 不 同 。 
每 个 请 求 占据 了 请 求 主体 中 的 两 行 。 


。 第 一 行 展示 了 操作 GAIE) 和 标识 信息 (索引 、 类 型 和 现 有 文档 
的 ID) 。 请 注意 bulk 批 量 API 使 用 下 画 线 ， 如 _index 和 _type 

， 但 是 多 条 渗 滤 不 用 下 夯 线 (index 和 type ) 。 

第 二 行 包含 了 元 数据 。 用 户 要 将 文档 放 在 doc 字段 。 当 用 户 渗 滤 
ME KAN 元 数据 的 JSON 应 该 是 空门 。 

请 求 的 主体 被 发 送 到 _mpercolate 端点 。 而 对 于 bulk 批 量 APIL， 
含 索 引 和 类 型 的 名 称 ， 而 主体 的 设置 可 以 覆盖 这 两 


3. 只 获取 匹配 查询 的 数量 


除了 渗 滤 操作 ， 多 条 渗 滤 API 还 支持 一 个 count 的 动作 ， 它 将 为 
篇 文档 返回 包含 匹配 查询 总 数 的 答复 ， 而 不 再 获得 匹配 的 matches 
数组 。 


echo '{"count" : {"index" : "blog", "type" : "posts"}} 
{"doc": {"title": "New Elasticsearch Release"}} 
{"count" : {"index" : "blog", "type" : "posts"}} 
{"doc": {"title": "New Elasticsearch Book"}} 

' > percolate_requests 


curl 'localhost:9200/_mpercolate?pretty' --data-binary 
@percolate_requests 


使 用 count 的 操作 ， 对 于 打 标 等 的 用 例 并 不 适用 ， 原 因 是 用 户 需 
要 知道 哪些 查询 和 文档 匹配 ， 不 过 对 于 其 他 用 例 可 能 束 会 有 所 不 同 
了 。 让 我 们 假设 有 一 个 在 线 的 商店 ， 而 且 用 户 想 增加 新 的 商品 。 如 采 
收集 了 用 户 的 查询 ， 并 在 渗 滤 中 注册 了 它们 ， 则 可 以 使 用 这 些 查 询 来 
渗 滤 所 有 的 新 商品 ， 来 预 信 有 多 少 用 户 将 通过 搜索 发 现 这 些 商 品 。 


在 get-together 丫 点 的 例子 中 ， 在 提交 搜索 之 前 束 能 了 解 每 个 活动 
预期 的 参加 人 数 一 一 假设 可 以 获取 每 位 用 户 的 空 档期 和 注册 时 间 范 
围 ， 并 将 其 作为 得 询 。 


当然 ， 可 以 获得 单 次 渗 滤 的 计数 ， 而 不 仅仅 是 多 条 渗 滤 的 。 在 
_percolate 端点 的 后 面 加 上 /count ° 


% curl 'localhost:9200/get-together/event/_percolate/count 


计数 将 有 助 于 提升 多 个 查询 匹配 的 性 能 ， 因 为 Elasticsearch 没 有 必 
要 将 所 有 的 ID 加 载 到 内 存 中 ， 也 没有 必要 通过 网 络 传输 它们 。 但 是 ， 
如 果 一 开始 就 有 很 多 的 查询 ， 用 户 则 可 能 希望 将 它们 放 入 分 隔 的 不 同 
索引 中 ， 并 确保 只 运行 相关 的 那些 。 接 下 来 看 看 如 何 做 到 这 一 点 。 


E.2.2 分 隔 的 和 过 滤 的 渗 滤 器 查询 


如 有 果 注 册 了 许多 的 查询 ， 并 且 / 或 渗 滤 了 很 多 的 文档 ， 那 么 可 能 

在 写 找 进 行 扩 展 和 提升 性 能 的 技巧 。 这 里 我 们 将 讨论 最 为 重要 的 几 
T 

。 将 渗 滤 放 在 分 隔 的 索引 中 。 这 让 用 户 可 以 对 其 进行 单独 地 扩展 ， 


尤其 是 当 用 户 将 这 些 索引 都 存储 于 同一 个 Elasticsearch 集 群 时 。 
。 减少 每 次 渗 滤 所 运行 的 查询 数量 。 其 策略 包括 路 由 和 过 滤 。 


1. 为 渗 滤 使 用 单独 的 索引 


在 单独 的 索引 中 注册 查询 的 时 候 ， 和 需要 记 住 的 是 为 所 有 被 查询 的 
字段 定义 一 个 映射 。 在 get-together 的 例子 中 ， 如 果 希 望 渗透 查询 在 
title 标题 字段 上 运行 ， 则 需要 在 映射 中 定义 这 个 字段 。 用 户 可 以 在 
创建 索引 的 时 候 进 行 这 个 操作 ， 此 时 也 可 以 指定 其 他 的 索引 相关 设 
置 ， 如 分 片 的 数量 。 


% curl -XPUT 'localhost:9200/attendance-percolate' -d '{ 
"settings": { 
"number_of_shards": 4 
ty 
"mappings": { 
"event": { 
"properties": { 


"title": { 
"type": "string" 


渐 的 attendance-percolate 索 引 将 拥有 4 个 分 片 ， 而 不 是 现在 get- 
together 索 引 的 两 个 。 这 意味 着 可 以 在 最 多 4 个 广 点 上 运行 单个 渗 滤 。 
这 样 的 索引 也 可 以 存储 在 单独 的 Elasticsearch 和 集群 ， 这 样 渗 滤 不 会 消耗 
过 多 用 户 在 get-together 索 引 上 运行 查询 所 需 的 CPU 资源 。 


一 旦 映射 中 建立 了 单独 的 索引 ， 丈 可 以 按照 E.1.1 市 同样 的 方式 来 
注册 得 询 并 执行 渗 减 。 


% curl -XPUT 'localhost:9200/attendance-percolate/.percolator/i' - 
d '{ 
"query": { 
"match": 
"title": "elasticsearch percolator" 


% curl 'localhost:9200/attendance-percolate/event/_percolate? 
pretty' -d '{ 
"doc": { 
"title": "Discussion on Elasticsearch Percolator" 


第 9 章 所 看 到 的 很 多 扩展 策略 同样 适用 于 渗 滤 器 。 用 户 可 以 使 用 多 
个 索引 (例如 ， 每 个 用 户 一 个 索引 ) 来 确保 用 户 只 会 执行 和 每 个 渗 滤 
相关 的 查询 。 还 可 以 使 用 别名 来 限制 查询 中 的 用 户 。 如 采 每 个 用 户 都 


需要 目 己 的 索引 ， 这 样 的 方式 可 以 让 用 户 避 免 索 引 过 多 的 问题 。 
2. 在 渗 滤 器 中 使 用 路 由 


AERLE BIRT ICN AM FRE: 路 由 。 当 拥有 多 个 市 
所 ， 而 很 多 用 户 都 在 执行 不 同 的 渗 小 时， 路 由 能 起 到 很 好 的 效果 。 路 
E a W, APALAH 
交互 ， 如 图 E-4 所 示 。 


路 由 的 主要 缺点 在 于 分 片 可 能 变 得 不 均衡 ， 因 为 查询 不 再 像 默 认 的 那样 随机 的 分 发 。 
如 果 有 些 用 户 发 起 的 查询 比 其 他 用 户 的 更 多 ， 这 些 用 户 的 分 片 就 会 变 得 更 大 ， 也 因此 更 难 
进行 扩展 。 更 多 信息 参见 第 9 章 。 


分 片 0 分 片 1 


图 E-4 ”使 用 路 由 的 渗 滤 请 求 减少 了 查询 的 数量 ， 而 且 命 中 的 分 片 也 更 少 
为 了 使 用 路 由 ， 需 要 通过 一 个 routing 值 来 注册 查询 : 


% curl -XPUT 'localhost:9200/\ 


attendance-percolate/.percolator/1?routing=radu' -d '{ 
"query": { 
"match": { 
"title": "Elasticsearch Aggregations" 


PR a aE EAE, RITET ee BE: 


% curl 'localhost:9200/\ 
attendance-percolate/event/_percolate?routing=radu&pretty' -d '{ 
"doc": { 
"title": "Introduction to Aggregations" 


或 者 也 可 以 忽略 routing 的 路 由 值 ， 在 所 有 注册 的 查询 上 进行 渗 
滤 。 请 注意 如 果 这 样 做 ， 将 失去 将 查询 仅仅 发 送 到 合适 分 片 的 优势 : 


% curl 'localhost:9200/attendance-percolate/event/_percolate? 


"title": "Introduction to Aggregations" 


过 滤 注 册 查 询 


ATERN E 直接 取决 于 所 运行 的 查询 数量 ， 而 过 滤 可 以 帮助 我 
们 控制 这 个 数量 ， 不 至 于 陷入 困境 。 


通常 ， 可 以 为 得 询 添加 一 些 元 数据 ， 然 后 根据 元 数据 进行 过 滤 。 
些 字 段 的 名 称 可 以 任意 选择 ， 原 因 是 这 些 字段 只 是 元 数据 ， 而 不 是 

1 也 不 会 被 加 入 映射 。 例 如 ， 可 以 为 活动 查询 加 
INS 


% curl -XPUT 'localhost:9200/\ 
attendance-percolate/.percolator/1' -d '{ 
"query": { 
"match": { 
"title": "introduction to aggregations" 


i 
i, 


"tags": ["elasticsearch" ] 


然后 ， 当 渗 滤 文 档 的 时 候 ， 对 标签 加 上 过 滤器 确保 只 有 相关 的 查 
询 才 会 被 运行 。 


% curl 'localhost:9200/attendance-percolate/event/_percolate? 
pretty' -d '{ 
"doc": { 
"title": "nesting aggregations" 
Fi 
"filter": { 
"term": { 
"tags": "elasticsearch" 


或 者 ， 用 户 也 可 以 过 滤 碍 询 本 号 。 这 需要 修改 映射 ， 因 为 query 
对 象 默认 是 不 被 索引 的 ，.percolator 类 型 的 映射 看 上 去 是 这 样 的 。 


".percolator": { 
"properties": { 
"query": { 
"type": "object", 


"enabled": false 


可 以 在 7.1 市 找到 更 多 关于 对 象 及 其 选项 的 信息 。 


在 代码 清单 E-4 中 ， 将 修改 映射 ， 开 局 query 对 象 ， 然 后 在 查询 


字符 串 上 使 用 过 滤 紫 。 


代码 清单 E-4 使 用 查询 的 内 容 对 其 进行 过 滤 


curl -XPUT 'localhost:9200/smart-percolate' -d '{ 
"mappings": { 
"event": { 


"properties": { 
"title": { "type": "string" } 
title 标题 字段 ，query 对 象 也 被 开启 了 


} 
}, 


",percolator": { 
"properties": { 
"query" : { "type" : 


一- - -创建 新 的 索引 ， 活 动 映射 中 包含 了 


object", "enabled": 


true } 


} 
} 1 

curl -XPUT 'localhost:9200/smart-percolate/.percolator/1' -d '{ 
- - -添加 一 个 关于 “ElasticsearchAggregations” 的 查询 


"query": { 
"match": { 
"title": "Elasticsearch Aggregations" 
} 
} 
}' 
curl 'localhost:9200/smart-percolate/event/_percolate?pretty' -d 
"doc": { 
"title": "Nesting Elasticsearch Aggregations" 
De 
"filter": { 
"query": { 
"match": { 
«---BRE-TAR 


"query.match.title": "Elasticsearch" 


aggregations 的 活动 ， 但 是 只 过 滤 出 关于 Elasticsearch 的 查询 
} 


BO OR ED es E Le 
TIEMIE Fs 1 TF, S CRUE ICIZ IRS CE A AY SERIE AR, 
HE SCALAR 


你 可 能 觉得 好 奇 ， 代 码 清 单 E-4 为 什么 将 一 个 查询 封装 在 过 滤器 
内 。 这 是 因为 本 案例 中 过 滤 注 册 查 询 的 时 候 ， 并 不 需要 具体 的 得 小。 
ee a ee 因此 运 
行 得 更 快 。 不 过 ， 有 些 应 用 场景 下 ， 得 分 、 高 宫 和 珍 集 这 样 的 特性 在 
渗 滤 的 过 程 中 是 有 用 的 。 下 面 我 们 淋 讨 论 下 这 些 用 例 - 


E.3 ”功能 性 的 技巧 


忠和 像 可 以 根据 元 数据 来 过 滤 注 册 查 询 那 样 ， 用 户 可 以 查询 这 些 元 
数据 并 根据 得 分 来 决定 哪些 查询 更 为 相关 。 在 这 个 章 订 ， 我 们 将 看 看 
这 征 如 何 运作 的 ， 以 及 使 用 聚集 来 更 好 地 洞察 匹配 的 查询 。 


请 记 住 用 户 将 在 注册 的 查询 上 运行 查询 和 聚集 ， 而 不 是 在 被 渗 滤 的 文 当 上 “。 这 就 意味 
着 ， 用 户 将 获得 注册 查询 上 的 排名 和 和 统 E 计 数据 ， 而 不 是 文档 的 。 


如 果 对 查询 进行 查询 的 逻辑 昕 上 去 有 点 别 拍 ， 让 我 们 从 男 一 个 功 


能 技巧 开始 : 高 之 。 这 看 上 去 更 直观 一 些 ， 因 为 高 亮 的 文本 是 来 自 被 
渗 滤 的 文档 。 


E.3.1 高 亮 被 渗 滤 的 文档 


亮 会 让 用 户 知道 在 被 渗 滤 的 文档 中 ， 哪 些 单 词 和 查询 是 匹配 
的 e ARCER T IEE 询 中 高 亮 的 特性 ， 不 过 它们 也 适用 


TB Eas ° 


如 果 运 行 了 代码 清单 E-4， 则 可 以 尝试 高 亮 的 渗 滤 ， 在 渗 滤 请 求 中 
加 入 highlight 部 分 。 用 户 也 应 该 指定 size 的 值 ， 来 限制 高 亮 查 询 
的 数量 。 


% curl 'localhost:9200/smart-percolate/event/_percolate?pretty' -d 
1 


"doc": { 
"title": "Nesting Elasticsearch Aggregations" 


}, 
"highlight": { 


"Fields": { 
"title": {} 


对 于 每 个 查询 ， 用 户 将 在 被 渗 滤 文 档 中 看 到 匹配 的 词 条 。 


_index" : "smart-percolate", 
_id" g a Dea 
"highlight" : { 
"title" : [ "Nesting < em>Elasticsearch 


< /em> < em>Aggregations 


< /em>" | 


} 


另 一 方面 ， 得 分 是 “ 菇 | 倒 过 来 "的 ， 就 像 渗 滤 器 本 身 ， 查 询 被 打 
分 ， 而 不 是 被 渗 滤 的 文档 。 


E.3.2 ”对 匹配 的 查询 进行 排名 


让 我 们 考虑 基于 上 下 文 的 广告 这 个 用 例 。 一 位 用 户 正 在 浏览 你 网 
站 上 的 博客 帖 ， 而 你 有 一 些 在 线 广告 作为 注册 碍 询 。 在 页 面 加 载 的 时 
候 ， 可 以 使 用 这 些 查 询 渗 滤 某 篇 博客 帖 ， 看 看 对 于 被 展示 的 内 容 哪 些 

告 是 适合 的 。 这 使 得 你 可 以 在 技术 帖 上 展示 技术 相关 的 广告 ， 在 度 
假 帖 上 展示 度假 相关 的 广告 ， 等 等 。 不 过 ， 展 示 广 告 的 位 置 有 限 ， 你 
准备 显示 哪些 呢 ? 


按照 某 些 标准 ， 如 每 个 广告 能 获得 的 营 收 ， 来 对 广告 进行 排序 ， 
PEREA? 然后 ， 可 以 根据 你 所 能 展示 的 数量 ， PE 
来 获取 排名 第 前 的 广告 


为 了 根据 某 个 字段 值 对 注册 查询 进行 排序 ， 可 以 使 用 第 6 章 介绍 的 
function score 查询 。 代 码 清单 E-5 将 使 用 这 种 查询 ， 根 据 
ad_price 的 值 对 广告 进行 排序 。 


代码 清单 E-5 ”按照 一 个 元 数据 字段 ， 对 注册 查询 进行 排序 


curl -XPUT 'localhost:9200/blog-ad/' -d '{ 


"mappings": { 
"posts": { 
"properties": { 
"text": { 
"type": "string" <--- 博 客 帖 中 文本 字段 必 不 可 少 的 上 映射， 查询 将 在 
这 个 映射 上 运行 
} 


curl -XPUT 'localhost:9200/blog-ad/.percolator/1' -d '{ 
"query": { 
"match": { 
"text": "new cars" 


ty 
"ad Tce 5.4 
}' =-- -为 存储 的 查询 添加 价格 相关 的 元 数据 字段 
curl -XPUT 'localhost:9200/blog-ad/.percolator/2' -d '{ 
"query": { 
"match": { 
"text": "used cars" 
} 
ty 


"ad_price": 2.1 
Li 


curl 'localhost:9200/blog-ad/posts/_percolate?pretty' -d '{ 
"doc": { 
"text": "This post is about cars" 
"query": { 
"function_score": { 
"field_value_factor": { =----Function score 查询 让 得 分 和 广告 价 
格 ad_price 相等 
"field": "ad_price" 


"Size": 5, ~---- 你 想 展示 多 少 个 广告 


"sort": "_score" -告知 系统 根据 得 分 来 排序 ， 现 在 得 分 就 是 广告 的 价 忆 


请 注意 function score 查询 不 会 进行 任何 的 过 滤 (尽管 这 也 
是 可 能 的 ， 它 只 是 简单 地 定义 了 _score 值 ， 将 其 用 于 排序 。 


这 里 ， 你 可 能 会 好 奇 为 什么 用 _score 上 排序 ， 而 不 是 直接 使 用 
ad_price 字段 来 排序 。 原 因 有 两 个 。 


。 渗 滤器 只 文 持 _score 的 排序 (至 少 在 版 本 1.4 中 ) 。 
。 实践 中 ， 用 户 可 能 想 结合 多 个 排序 标准 。 


在 广告 的 例子 中 ， 用 户 可 能 想 加 入 一 个 随机 值 ， 确 保 最 终 所 有 的 
广告 都 被 展示 过 。 对 于 那些 昂贵 的 广告 只 是 加 大 其 出 现 的 概率 。 这 里 
的 function score 查询 允许 用 户 为 不 同 的 条 件 定 义 不 同 的 权重 ， 
并 组 合 它们 © 


最 后 ， 用 户 可 能 想 更 加 深入 地 理解 匹配 查询 是 如 何 分 布 的 ， 可 以 
通过 案 集 来 达到 这 个 目的 。 


E.3.3 ”在 匹配 查询 的 元 数据 上 进行 聚集 


让 我 们 假设 你 负责 开发 一 家 在 线 丙 店 的 搜索 功能 。 当 加 入 新 的 丙 
品 时 ， 你 希望 确保 对 于 这 类 产品 的 描述 和 有 顾客 通 常 搜索 的 内 容 相 下 


配 。 


如 果 将 用 户 的 搜索 注册 为 渗 滤 查询 ， 则 可 以 在 提交 商品 文档 之 前 
对 其 进行 渗 滤 ,来 预测 该 商品 和 被 搜索 到 的 频 娄 程 度 。 如果 商品 在 过 少 
或 者 过 多 的 搜索 中 出 现 ， 可 能 束 存 在 问题 。 在 这 些 情况 下 ， 可 以 通过 
在 元 数据 字段 甚至 是 实际 查询 文本 上 运行 聚集 ， 获 得 更 多 关于 这 些 匹 
配 查 询 的 分 布 信息 。 

代码 清单 E-6 将 准备 并 运行 用 户 搜索 上 的 渗 诚 ， 然 后 聚集 查询 的 词 
条 “。 在 这 个 例子 中 ， 词 条 cheap 将 成 为 所 有 匹配 碍 询 中 最 热门 的 词汇 ， 
BRAN TIA SIR RAS, OM ESP A AAR 。 


代码 清单 E-6 ”使 用 聚集 来 获取 匹配 查询 元 数据 和 词 条 的 统计 数 


curl -XPUT 'localhost:9200/shop' -d '{ 


"mappings": { 
"items": { 
"properties": { 
"name": { "type": "string" } =--- 查 询 将 运行 在 name 名 称 字 段 
上 ， 所 以 你 要 在 映射 中 定义 它 
} 
ty 


" percolator": { 
"properties": { 
"query": { "type": "object", "enabled": true } =--- 开 局 
询 对 象 让 你 可 以 在 查询 词 条 上 进行 聚集 


} 
} 


im 


1 


curl -XPUT 'localhost:9200/shop/.percolator/1' -d '{ 
"query": { 
"match": { 
"name": "cheap PC Linux" =--- 注 册 一 些 看 上 去 像 顾 客 搜索 的 查询 


} 


1 


curl -XPUT 'localhost:9200/shop/.percolator/2' -d '{ 
"query": { 
"match": { 
"name": "cheap PC" 


curl -XPUT 'localhost:9200/shop/.percolator/3' 


-d '{ 


"query": { 
"match": { 
"name": "Mac Pro latest" “~--- 注 册 一 些 看 上 去 像 顾 客 搜索 的 查询 
} 
curl 'localhost:9200/shop/items/_percolate/count?pretty' -d '{ 
"doc": { 
"name": "PC with preinstalled Linux" <--- 渗 滤 这 个 新 商品 ， 将 匹配 前 
两 个 查询 
ty 
"aggs" { 


"top_query_terms": { 


"terms": 


-- - -在 查询 文本 上 的 紊 订 显 示 ， 单 词 cheap 和 pc 出 现 了 两 次 ， 而 Linux 出 现 一 次 


} 


} 1 


{ "field": 


"query.match.name" } 


该 查询 回复 中 的 聚集 部 分 应 该 像 这 样 : 


"aggregations" 
"top_query_terms" : { 
"doc_count_error_upper_bound" 
"sum_other_doc_count" : 0, 


"buckets" 
"key" 


{ 


[ { 


"cheap", 


"doc_count" : 2 


}, { 
"key" 


"pce" > 


"doc_count" : 2 


tr { 
"key" 


"linux", 


"doc _count" : 1 


}] 


: 0, 


ee 


如 条 cheap 是 这 里 的 热门 词 条 ， 而 用 户 所 添加 的 电脑 产品 确实 是 
物美 价 廉 ， 那 么 最 好 将 这 一 点 加 入 商品 的 描述 之 中 ， 这 样 用 户 搜索 此 
类 商品 时 惑 能 发 现 这 款 电脑 了 。 

这 里 ， 需 要 记 住 的 一 个 关键 点 是 ， 和 本 附录 中 多 数 的 特性 一 样 ， 
案 集 是 运作 在 注册 的 查询 之 上 ， 而 不 古 被 渗 滤 的 文档 之 上 。 否 则 我 们 
也 不 会 无 缘 无 故地 将 渗 滤 称 为 “搜索 的 题 履 者 ”了 | 


附录 F 为 目 动 完 成 和 “您 是 指 ” 功 能 使 用 
Was 


现在 ， 你 不 仅 希 望 搜 索引 擎 返回 好 的 结果 ， 还 希望 它 能 提升 你 的 
查询 。 举 例 来 说 ， 就 像 Google: 如 来 你 错 拼 了 某 个 单词 ， Google 会 告 
诉 你 这 个 错误 、 建 议 一 个 纠正 后 的 拼写 ， 甚 至 是 直接 运行 新 的 查询 ， 
如 图 F-1 所 示 。 


Showing results for elasticsearch 
Search instead for elasticsaerch 


图 F-1 Google 的 拼写 检查 


Google 也 提供 了 目 动 完成 的 功能 ， 试 图 预防 错 拼 的 发 生 。 这 也 使 
得 查询 更 便捷 ， 并 癌 你 展示 了 你 可 外 感 兴 焉 的 话题 如 图 F-2 所 示 。 


= ES 
ela sear 


图 F-2 ”Google 的 自动 完成 


Elasticsearch 通 过 建议 器 (Suggesters) 模块 ， 同 时 提供 了 “您 是 
指 ”(did-you-mean，DYM) 和 自动 完成 的 功能 。 建 议 器 的 用 途 是 接收 
给 定 的 文本 ， 返 回 更 好 的 关键 词 。 


本 附 永 中 将 宰 击 以 下 4 种 类 型 的 建议 天 


。 词 条 建议 器 一 对 于 给 定 文 本 的 每 个 词 条 ， 该 建议 器 从 素 引 中 抽 
ee 这 对 于 短 字 段 (如 标签 ) 上 的 DYM 功 能 很 有 


词组 建议 器 
(不 是 单个 词 条 ) he 。 它 考 虚 了 词 条 彼此 领 
近 出 现 的 频率 ， 使 得 该 建议 器 更 合 适 较 长 的 字段 如 商品 的 描 


yli o 


\ mv 日、 二 


0 一 一 该 建议 絮 根 据 词 条 的 前 级 ， 提 供 了 目 动 完成 的 功 
> a 内 存 中 的 结构 ， 因 此 比 你 在 第 4 章 看 到 的 前 绥 查 询 执行 

得 

EFENA 它 是 完成 建议 需 的 扩展 ， 人 允许 你 根据 词 条 (分 


K) 或 者 地 理 位 置 过 滤 候 选项 。 


Elasticsearch 下 在 打造 一 个 新 的 建议 器 ， 它 是 基于 近 实时 的 建议 器 。 更 多 像 地 理 距离 
过 滤器 这 样 fF 的 选项 会 得 到 支持 。 新 的 建议 器 预计 在 版 本 2.0 中 发 布 。 现 有 的 建议 器 仍然 可 以 


使 用 。 


F.1 “您 是 指 ” 建 议 器 


通过 消灭 销 拼 和 /或 展示 比 原 有 关键 词 更 主流 的 变 体 ， 词 条 和 词组 
建议 絮 可 以 帮助 你 避免 难堪 的 “找到 0 结果 ”页 面 。 例 如 ， 
Lucene/Solar 上 时， 系统 可 能 会 建议 Lucene/Solr ° 


可 以 让 用 户 来 运行 建议 器 给 出 的 查询 : 
(您 是 指 Lucene/Solr 吗 ? ) 
或 者 可 以 让 系统 目 动 地 运行 给 出 的 建议 : 


(展示 Lucene/Solr 的 结果 。 如 果 要 Lucene/Solar 的 结果 点 击 这 
里 。) 


通常 ， 如 有 果 原 有 的 查询 没有 任何 的 结果 ， 或 者 只 有 几 个 得 分 很 低 
的 结果 ， 那 么 最 好 目 动 地 运行 建议 的 查询 。 


在 深入 了 解 如 何 使 用 词 条 和 词组 建议 紫 之 前 ， 先 来 看 看 这 两 者 的 


比较 。 


。 词 条 建议 右 是 很 基础 的 ， 而 且 运 行 速度 快 ， 当 用 户 只 关心 每 个 词 
的 出 现时 它 很 管用 ， 如 搜索 代码 或 者 短文 本 。 

。 尺 一 方面 ， 词 组 建议 将 输入 的 文本 作为 整个 考虑 。 正 如 我 们 稍 后 
将 看 到 ， 这 样 运行 束 会 更 慢 而 且 远 辑 更 为 复杂 ， 不 过 对 于 目 然 语 


言 或 者 其 他 需要 考虑 单词 顺序 的 地 方 (如 商品 的 名 称 ) ， 词 组 建 
议 絮 的 效果 会 更 好 。 举 个 例子 ， 尽 管 单词 phone 在 索引 中 出 现 更 频 
繁 ， 但 apple iphone 可 能 是 比 apple phone 更 好 的 建议 。 


词 条 和 词组 建议 器 都 使 用 了 Lucene 的 错 拼 检查 器 (SpellChecker) 
模块 作为 核心 。 它 们 查看 索引 中 的 词 条 并 给 出 建议 ， 所 以 如 果 数 据 是 
可 靠 的 ， 残 可 以 很 容易 地 在 现 有 数据 的 基础 上 添加 DYM 功 能 。 人 否则 ， 
如 果 你 的 数据 经 常 包含 错 拼 (如 正在 索引 社交 媒体 的 内 容 ) ， 那 么 最 
好 维护 一 个 单独 的 索引 作为 建议 的 “词典 *。 单 独 的 索引 可 以 包含 经 常 
运行 的 、 返 回 的 结果 也 被 经 常 点 击 的 查询 。 


F.1.1 词 条 建议 器 


词 条 建议 器 接收 输入 的 文本 ， 对 其 进行 分 析 并 切 分 为 词 条 ， 然 后 
为 每 个 词 条 提供 一 系列 的 建议 。 代 码 清单 F-1 很 好 地 阐述 了 这 个 过 程 ， 
其 中 为 全 书 使 用 的 get-together 站 点 样 例 提供 了 分 组 成 员 的 建议 。 


词 条 建议 器 的 结构 也 适用 于 其 他 类 型 的 建议 器 。 


建议 的 选项 在 JSON 根 的 suggest 元 素 下 面 。 例 如 ， 和 query 或 
aggregations 的 层次 一 样 。 

可 以 有 一 个 或 多 个 建议 器 ， 每 个 建议 器 都 有 自己 的 名 字 ， 束 像 第 7 
章 对 良 集 所 做 的 那样 。 在 代码 清单 F-1 中 ， 使 用 的 名 称 为 dym- 
members 。 

在 每 个 建议 器 下 面 ， 提 供 了 text 文本 和 建议 的 类 型 ， 在 这 个 例 
子 中 ， 使 用 的 是 term。 在 这 个 下 面 ， 将 放置 和 类 型 相关 的 选 

项 。 在 词 条 建议 絮 的 例子 中 ， 唯 一 的 必要 选项 是 用 于 提供 建议 的 
字段 。 本 例 中 将 使 用 members 会 员 字 段 。 


了 让 代码 清单 F-1 正 常 运行 ， 必 须 下 载 源 代码 样 例 ， 并 执行 populate.sh 来 索引 一 些 样 
本 数据 。 


代码 清单 F-1 使 用 词 条 建议 器 来 纠正 会 员 的 错 拼 


curl localhost :9200/get-together/group/_search?pretty -d '{ 


"query": { 
"match": { 
"members": 


} 
ty 
"Suggest": { 


"dym-members": { 
"text": 
"term": { 

"field": 
} 
} 


} 
F 
# reply snippet 
"hits" : { 
"total" : 0, 
"max_score" 
"hits" [ ] 
ty 
"Suggest" : { 
"dym-members" 
"text"! 
"offset" : 0, 
"length" : 4, 
"options" 
"text"! 
"score" 


"text"! 
"offset" : 5, 
"length" : 6, 
"options" 
"text" 
"score" 


"leee daneil", 
-- - -建议 器 的 类 型 


"members" 


~- -- 由 于 错 拼 ， 搜 索 没 有 返回 任何 命中 的 结 


aie 
: "lee", ~- - -对 于 输入 文本 的 每 个 词 条 ， 你 都 会 获得 一 组 
: 0.6666666, 
: 3 


[ { 
"daniel", 
: 0.8333333, 


"leee daneil" 


~-- -每 个 建议 器 都 有 一 个 名 字 
=- - -输入 的 文本 ， 


系统 
~--- 从 这 个 字段 生成 建议 


: null, 


[ { 


"leee", 


"daneil", 


如 有 果 用 户 只 需要 建议 ， 而 不 是 整个 查询 的 结果 ， 那 么 可 以 使 用 


_suggest 端点 ， 跳 过 


query 对 象 ， 而 且 只 传送 没有 suggest 关键 


字 包 围 的 suggest 对 象 。 


% curl localhost:9200/get-together/_suggest 


?pretty -d '{ 
"dym-members": { 
"text": "leee daneil", 


"term": { 
"field": "members" 


在 运行 查询 之 前 检查 缺失 的 词 条 时 ， 这 个 很 有 用 处 ， 它 允许 用 户 
修正 关键 词 ， 而 不 会 获得 “找到 0 个 结果 ”页 面 。 


1. 对 建议 进行 排名 


默认 情况 下 ， 词 条 建议 器 为 每 个 词 条 提供 了 若干 (按照 size 参 数 
的 值 ) 的 建议 。 建 议 是 按照 它们 和 输入 文本 的 近似 程度 来 排列 的 。 例 
如 ， 如 果 输 入 了 Willian ， 系 统 将 返回 William ， 然 后 是 
Williams 。 当 然 ，Elasticsearch 如 此 建议 的 前 提 是 这 两 个 词 条 在 索引 
中 都 是 存在 的 ， 而 且 原 文 Willian 在 索引 中 是 不 存在 的 。 


如 果 搜 索 的 是 关于 F1 方 程式 赛车 的 文档 ， 那 么 这 个 结果 就 不 太 理 
想 了 。 因 为 这 里 Williams 比 William willian 更 可 能 被 搜索 上 
o 即使 Willian 在 索引 中 是 存在 的 ， 也 可 能 想 显 示 Williams 。 


正如 你 所 想 ， 可 以 改变 这 一 切 。 你 可 以 将 sort 修改 为 
frequency 词 频 而 不 使 用 默认 的 score 得 分 ， 让 流行 的 单词 排名 更 
高 。 最 后 ， 可 以 修改 suggest_mode 来 确定 何 时 展现 建议 。 和 默认 的 
missing 值 相 比 ，popular 将 提供 比 原 有 输入 词 频 更 高 的 词 条 ， 而 
always 无 论 如 何 都 会 提供 建议 。 


在 代码 清单 F-2 中 ， 对 于 活动 参与 者 mick 你 只 会 获得 最 流行 的 建 


议 


代码 清单 F-2 为 某 个 词 条 获取 最 流行 的 建议 


curl localhost:9200/get-together/_suggest?pretty -d '{ 
"dym-attendees": { 
"text": "mick", 
"term": { 
"field": "attendees", 
"size": 1, =---- 只 获取 得 


"sort": "frequency", « EN 而 不 是 和 给 定 
词 条 的 相似 程度 
"suggest_mode": "popular" 一--- 只 提供 比 给 定 词 条 拥有 更 高 词 频 的 建议 


2. 选择 考虑 哪些 词 条 


在 代码 清单 F-2 中 ， 用 户 得 到 了 最 终 胜 出 的 建议 选项 ， 但 是 哪些 候 
选项 会 参与 芝 争 ? 让 我 们 来 看 看 词 条 建议 器 是 如 何 运作 的 ， 以 便 理 解 
如 何 确定 哪些 建议 将 成 为 第 一 名 。 


正如 之 前 所 提 到 的 ， 词 条 建议 万 使 用 了 Lucene 的 错 拼 检查 器 模 
块 。 它 会 根据 和 给 定 词 条 ea 从 索引 返回 最 大 编辑 距离 不 起 
过 某 个 值 的 那些 词 条 。 在 第 4 划 中 ， 你 看 到 过 一 个 例子 展示 模糊 查询 中 
的 编辑 距离 是 如 何 工作 的 。 举 例 来 说 ， 为 了 从 mik 得 到 mick ， 需 要 
加 入 一 个 字母 ， 所 以 这 两 者 的 编辑 距离 就 是 1。 


和 模糊 得 WRM, AVE Wan A ATMA, LEH A By DA 
灵活 性 和 性 能 


。max_edits 一 一 限制 了 给 定 词 条 和 建议 词 条 之 间 的 编辑 距离 。 
处 于 性 能 的 考虑 ， 这 个 值 将 限制 在 1 或 2 ， 而 2 是 默认 的 取 值 。 

e prefix_length _ 单词 的 开头 有 多 少 被 假设 为 正确 的 ° 前 组 
越 长 ，Elasticsearch 发 现 建议 的 速度 就 越 快 ， 不 过 前 绥 出 现 错 拼 的 
风险 也 越 高 。 默 认 的 prefix_length 取 值 为 1。 


如 果 担 心性 能 ， 你 可 能 还 想 调 优 这 些 选 项 。 


e min_doc_freq ， 它 限制 候选 建议 必须 是 足够 流行 的 词 条 。 
。max_term_freq ， 它 将 输入 文本 中 流行 的 词 条 排除 到 纠正 的 范 
围 之 外 。 


如 有 果 你 更 担心 准确 性 ， 那 么 也 看 看 词组 建议 占 吧 。 它 提供 了 更 好 
的 建议 ， 无 其 是 对 大 型 的 字段 而 言 。 


F.1.2 ”词组 建议 器 


词组 建议 器 和 词 条 建议 如 一 样 。 也 提供 “您 古 指 ”的 功能 ， 不 过 它 
不 再 为 单个 的 词 条 提供 建议 ， 而 是 为 整个 文本 提供 建议 。 当 你 的 搜索 
中 有 多 个 单词 的 时 候 ， 这 样 做 有 几 个 好 处 。 


首先 ， 客 户 端的 逻辑 更 少 。 例 如 ， 如 果 为 输入 文本 abut using 
elasticsarch 使 用 词 条 建议 右 ， 你 可 能 为 abut 获得 about 的 建 
议 ， 为 elasticsarch 获得 elasticsearch 的 建议 。 应 用 程序 不 得 
不 确定 using 没有 建议 可 选 ， 并 且 构 建 一 条 这 样 的 消息 “您 是 指 : 


about using elasticsearchl3? ” 
如 在 代码 清单 F-3 中 所 看 到 的 ， 词 组 建议 硕 直 接 给 出 about 


using elasticsearch 的 建议 。 此 外 ， 还 可 以 使 用 高 亮 来 向 用 户 
展示 哪些 原 有 的 词 被 纠正 了 。 


代码 清单 F-3 ”使 用 了 高 亮 的 词组 建议 器 


curl localhost:9200/get-together/_suggest?pretty -d '{ 


"dym-attendees": { 


"text": "abut using elasticsarch", 
"phrase": { <--- 建 议 器 的 类 型 修改 为 词组 
"field": "description", 
"highlight": { 
"pre_tag": "<em>", ~--- 高 亮 需 要 标签 ， 就 像 在 附录 C 中 看 到 的 
"post_tag": "</em>" 
} 
} 


1 


# reply snippet 


"dym-attendees" : [ { 
"text" : "abut using elasticsarch", 
"offset" : 0, 
"length" : 23, 


"options" : [ { 
"text" : "about using elasticsearch", 
"highlighted" : "<em>about</em> using 


<em>elasticsearch</em>", =---- 为 整个 文本 提供 的 建议 ， 被 排序 并 被 高 亮 
"score" : 0.004515128 


tr i 
"text" : "about using elasticsarch", 
"highlighted" : "<em>about</em> using elasticsarch", <---A# 


个 文本 提供 的 建议 ， 被 排序 并 被 高 亮 了 
"score" : 0.002511514 


ty 
"text" : "abut using elasticsearch", 
"highlighted" : "abut using <em>elasticsearch</em>", 
"score" : 0.0022977828 
t ] 
} ] 


然后 你 可 以 期 望 建议 的 排名 更 合理 ， 尤 其 古 搜索 自然 语言 的 时 
候 ， 如 书籍 的 内 容 。 词 组 建议 器 在 词 条 建议 絮 的 基础 之 上 加 入 了 新 的 


逻辑 ， 根 据 索引 中 词 条 共同 出 现 的 情况 对 候选 词组 衡量 权重 。 这 种 排 
名 的 技术 家 称 为 N 元 语法 的 语言 模型 ， 如 采 搜 索 的 字段 有 相应 的 滑动 
窗口 字段 ， 它 就 能 奏效 。 可 以 使 用 第 5 草 讨 论 的 消 动 窗口 词 条 过 滤器 来 
oat O ° WWE, eae Pa eH ae 

j 建 索引 ° 


给 定 一 串 文 本 或 者 是 语音 ， 一 个 N 元 语法 是 n 个 连续 项 目的 序列 。 这 里 项 目 可 以 是 字母 
也 可 以 是 单词 ， 在 Elasticsearch 中 我 们 说 N 元 语法 是 指 基 于 字母 的 N 元 语法 ， 而 滑动 窗口 是 
指 基 于 单词 的 N 元 语法 。 


一 个 N 元 语法 模型 使 j 现 有 单词 N 元 语法 (也 就 是 Elasticsearch 的 滑动 窗口 ) 来 确定 不 
同 单词 彼此 相 邻 的 可 能 性 。 例 如 ， 假 设 语音 识别 设备 在 训练 数据 中 发 现 滑 动 窗口 yellow 
fever 要 比 hello fever 更 多 ， 那 么 它 更 可 能 接收 到 yellow fever 而 不 是 hello 


词组 建议 器 根据 滑动 窗口 中 连续 单词 出 现 的 次 数 ， 使 用 N 元 语法 模型 来 为 候选 词组 打 
分 。 你 可 以 期 望 John has yellow fever 这 样 的 词组 建议 比 John has hello 
fever 的 得 分 更 高 。 


Shingles 字段 被 用 于 建议 的 排序 ， 它 会 检查 被 建议 的 单词 彼此 
邻近 的 频率 如 何 ， 如 图 F-3 所 示 。 


“mick sits™ 


“mike shows” 


滑动 窗口 和 
一 元 语法 


词 条 候选 


mik ——> mick 


词组 候选 


mick shows _ }-- 
y 


输入 的 文本 sits — mick sit: 
Eko 词 条 候选 ! a 
mik shows 7 | 排名 后 的 建议 
fe eee i t 
ne 词组 候选 ! ee 1. mike shows 
| 2. mick shows 
ae 4 


| mike shows 


Shows 


图 F-3 ”候选 建议 是 根据 滑动 窗口 字段 进行 排 


如 你 所 期 ， 有 很 多 选项 来 配置 这 个 流程 的 大 部 分 ， 这 里 让 我 们 讨 
论 最 为 重要 的 几 个 。 


。 候选 者 生成 器 如 何 产 生 候 选 的 词 条 

。 整体 的 词组 如 何 依据 shingles 字段 来 获取 得 分 

。 不 同 大 小 的 滑动 窗口 如 在 影响 候选 建议 的 得 分 。 

。 如 何 按照 不 同 的 标准 (如 得 分 或 者 它们 是 否 返 回 结果 ) ， 包 含 或 
者 排除 建议 。 


1. 候选 者 生成 器 


候选 者 生成 器 的 责任 是 根据 用 户 所 提供 的 文本 ， 产生 一 系列 可 能 
的 词 条 。 在 版 本 1.4 中 ， 只 有 一 种 候选 者 生成 器 ， 名 为 
direct_generator 。 它 和 词 条 建议 器 的 工作 原理 相似 ， 为 输入 文 
本 中 的 每 个 词 条 查找 建议 。 


这 个 直接 生成 颖 和 词 条 建议 絮 有 类 似 的 选项 ， 如 max_edits 或 
者 prefix_length。 但 是 ， 词 组 建议 右 可 以 支持 超过 1 种 的 生成 


r) 


器 ， 也 人 允许 你 指定 输入 的 词 条 被 进行 拼写 检查 之 前 它们 所 使 用 分 析 
器 ， 以 及 被 建议 词 条 在 返回 前 使 用 的 分 析 器 。 


使 用 多 个 生成 器 和 过 滤器 可 以 让 你 处 理 起 来 更 有 技巧 。 例 如 ， 如 
果 错 拼 往往 发 生 在 单词 的 开头 和 结尾 ， 你 可 以 使 用 多 个 生成 器 ， 以 及 
逆 问 分 词 (reverse token) 过 滤器 ， 避 免 由 于 短 前 绥 而 导致 的 昂贵 的 建 
议 操作 ， 如 图 F-4 所 示 。 


你 将 在 代码 清单 F-4 中 实现 图 F-4 的 逻辑 。 

。 逢 要 一 个 包含 逆向 分 词 过 滤器 的 分 析 器 。 

。 将 正确 的 商品 描述 索引 到 两 个 字段 : 一 个 是 采用 标准 分 析 器 处 理 
的 ， 而 另 一 个 是 采用 逆向 分 词 分 析 器 处 理 的 。 


文档 


“iphone accessories” 


标准 字段 
iphone 
accessories 直接 的 生成 器 
accessorie 一 > accessories 
输入 的 文本 | 词组 建议 
“ifone accessorie” i “iphone accessories ” 
逆向 字段 
逆向 前 过 滤器 直接 的 生成 器 ”逆向 后 过 滤器 
j | enohpi enofi— —> enophi [ | 


seirossecca 


图 F-4 (RAVE AU ERE RRRA TE BTA ARD 
当 用 户 运 行 建议 器 的 时 候 ， 可 以 指定 两 个 候选 痢 生 成 器 :一 个 运 
ES 


代码 清单 F-4 在 两 个 生成 器 中 使 用 逆向 分 词 过 滤器 


curl -XPUT localhost:9200/shop -d '{ 
"settings": { 
"analysis": { 


"filter": { 
"reversing": { "type": "reverse" } =---- 逆 向 分 词 过 滤器 
ty 
"analyzer": { 
"standard_reverse": { 
"type": "custom", 
"tokenizer": "standard", 
"Filter": ["lowercase", "reverse"] =--- 和 标准 分 析 器 类 似 的 
分 析 器 ， 不 过 使 用 逆向 的 分 词 
} 
} 
} 
ty 
"mappings": { 
"products": { 
"properties": { 
"product": { ”<<--- 使 用 标准 分 析 器 分 析 商 品 的 字段 ， 而 
product.reversed 字段 是 逆向 的 
"type": "string", 
"fields": { 
"reversed": { 
"type": "string", 
"analyzer": "standard_reverse" 


curl -XPUT localhost:9200/shop/products/1 -d '{ 
"product": "iphone accessories" 


curl -XPOST localhost:9200/shop/_suggest?pretty -d '{ 


"dym" : { 
"text": "ifone accesorie", 
"phrase": { 


"field": "product", 
"max_errors": 2, =---- 这 里 max_errors 表示 建议 中 可 以 有 多 少 次 纠 了 了 
"direct_generator": [ 


TH 


"field": "product", =--- 常 规 的 生成 器 纠正 了 后 组 ， 逆 向 的 生成 器 


纠正 了 前 组 


"orefix_length": 3 

ty 

{ 
"field": "product.reversed", 
"orefix_length": 3, 


"ore_filter": "standard_reverse", 
"post_filter": "standard_reverse" 


reply snippets 

"text" : "iphone accessories", -~--- 在 建议 中 ， 两 个 词 条 都 被 纠正 了 
"score" : 0.48023444 

"text" : "iphone accesorie", 
"score" : ©.38765374 

"text" : "ifone accessories", 
"score" : ©.35540017 


2. 为 打分 的 候选 者 使 用 滑动 窗口 字段 


现在 有 了 良好 的 候选 者 ， 就 可 以 使 用 shingles 字段 来 进行 排 
名 。 代 码 清单 F-5 将 使 用 shingle token 过 滤器 为 商品 的 描述 定义 
另 一 个 多 字段 。 


用 户 需 要 确定 一 个 滑动 窗口 中 允许 多 少 个 连续 的 单词 ， 或 者 说 是 
滑动 窗口 的 大 小 。 这 通常 是 性 能 和 准确 性 的 均衡 : 低级 别 的 滑动 窗口 
用 于 获取 部 分 匹配 ， 如 基于 索引 文本 United States of America 
提升 建议 United States 的 得 分 。 更 高 级 别 的 滑动 窗口 对 于 提升 更 
长 文本 的 精确 匹配 有 好 处 ， 如 针对 United States of Americas 
建议 United States of America。 问 题 在 于 ， 随 着 滑动 窗口 的 
大 小 的 增加 ， 索 引 的 规模 也 会 更 大 ， 建 议 也 会 更 长 。 


对 于 多 数 用 例 ， 一 个 民 好 的 均衡 是 将 索引 大 小 设置 为 1~~3。 用 户 
可 以 将 min_shingle_size 设置 为 2、 将 max_shingle_size 设 
置 为 3 来 做 到 这 一 点 ， 而 默认 情况 下 滑动 窗口 过 滤器 输出 一 元 语法 


(unigram) 
“shingles 字段 束 绪 之 后 ， 则 需要 将 其 指定 为 词组 建议 絮 的 


field ， 而 普通 的 description 描述 字段 将 放 在 每 个 候选 者 生成 器 
iig 


代码 清单 F-5 ”使 用 shingles 字 段 获 得 更 好 的 建议 排名 


curl -XPUT localhost:9200/shop2 -d '{ 


"Settings": { 
"analysis": { 
"filter": { 
"shingle": { --- -85A O SHTA 


， 输 出 了 一 元 语法 ， 二 元 语法 和 三 元 语法 
"type": "shingle", 


"min_shingle_size": 2, 
"max_shingle_size": 3 
} 
ty 
"analyzer": { 
"Shingler": { 


"type": "custom", 
"tokenizer": "standard", 
"filter": ["lowercase", "shingle" ] 
} 
} 
} 
ty 
"mappings": { 
"products": { 
"properties": { 
"product": { 
"type": "string", 
"fields": { 
"shingled": { =--- 使 用 滑动 窗口 分 析 器 的 字段 
"type": "string", 
"analyzer": "shingler" 
} 
} 


curl -XPUT localhost:9200/shop2/products/1 -d '{ 


"product": "iphone accessories" 
1 


curl localhost:9200/shop2/_suggest?pretty -d '{ 
"dym" : { 


"text": "ifone accesorie", 
"phrase": { 
"field": 


"nroduct.shingled", =---- 滑 动 


窗口 字段 用 于 打分 


子 段 用 于 候选 者 
"max_errors": 2, 
"direct_generator": [{ 


"field": "product" 
}] 


， 一 元 语法 


# reply snippet 
"text" : "iphone accessories", ~--- 和 代码 清单 F-4 相 比 ， 得 分 的 差距 拉 
大 了 ， 原 因 是 第 一 个 建议 匹配 了 一 个 二 元 语法 
"score" : 0.44569767 


"text" : "ifone accessories", 
"score" : ©.16785859 
"text" : "iphone accesorie", 


"score" : @.16785859 


3. 使 用 平滑 模型 为 不 同 大 小 的 滑动 窗口 打分 


假设 有 两 种 可 能 的 建议 : Elasticsearch in Action 和 
Elasticsearch is Auction 。 如 果 索 3 引 包 含 三 元 语法 
Elasticsearch in Action ， 你 会 希望 这 个 建议 的 排名 要 高 一 
些 。 但 是 如 果 词 条 频率 是 唯一 的 评判 标准 ， 而 且 一 元 语法 auction 在 
索引 中 出 现 了 很 多 次 ， AbAElasticsearch is Auction 可 能 反 

会 胜出 。 


在 很 多 时 候 ， 用 户 和 希望 得 分 不 仅仅 是 根据 请 动 窗口 的 频率 ， 同 时 
ERIRE JA OKEE | PAWE, FARA (smoothing 
models) 可 以 做 到 这 一 点 。 默 认 地 ，Elasticsearch 在 词组 建议 器 中 使 用 
一 个 称 为 轴 策 补偿 (Stupid Backoff) 的 算法 。 它 的 名 字 和 意味 着 这 个 模 
型 是 很 简单 的 ， 但 是 效果 不 错 : 叫 它 将 最 高 阶 的 滑动 窗口 作为 参考 
一 一 在 代码 清单 F-5 的 例子 中 是 三 元 语法 。 如 果 没 有 发 现 三 元 语法 ， 系 
统 会 查找 二 元 语法 ， 不 过 其 得 分 要 乘 以 0.4 作 为 惩罚 。 如 果 也 没有 发 现 
二 元 语法 ， 系 统 将 继续 查找 一 元 语法 ， 而 且 得 分 再 次 乘 以 0.4 来 被 进 一 
步 降 低 。 完 整 的 流程 如 图 F-5 所 示 。 


词 频 


lasti hi ; 1 No trigrams found. 
= |x-------------- i - 
clasticsearch mash one > Discounting score by 0.4 
elasticsearch in -> 1 


ESENE, No bigrams found. 
in action- > | 


Discounting score by 0.4*0.4 


elasticsearch —> 1 


0.16*1/50 
elasticsearch 0.16% 1/50 elasticsearch 
in action is—> 1 is auction 
0.16x3/50 
auction—> 3 
总 共 : 0.8/50 
TOTAL:50 


图 F-5 ” 轧 笨 补偿 对 低 阶 背 动 窗口 的 得 分 进行 了 打折 


这 里 0.4 的 乘 数 可 以 通过 discount 折扣 参数 进行 配置 。 


% curl localhost:9200/shop2/_suggest?pretty -d '{ 
"dym" : { 


"text": "ifone accesories", 
"phrase": { 


"field": "product.shingled", 
"smoothing": { 


"stupid backoff": { 


"discount": 0.5 


}, 


"direct_generator": [{ 
"field": "product" 


_ HY, BARMA DR rae fF, Ati EF] DUE, ea 
斯 平滑 或 者 线性 插值 。 


4. 根据 不 同 的 条 件 排除 建议 


除了 可 以 根据 N 元 语法 的 语言 模型 对 建议 进行 排序 ， 还 可 以 根据 
特定 的 标准 来 包含 或 者 排除 建议 。 回 到 代码 清单 F-4， 你 看 见 了 
max_errors ， 它 只 允许 建议 修正 最 多 一 定数 量 的 词 条 。 通 常 我 们 建 
议 将 max_errors 设置 为 一 个 比较 低 的 值 (默认 是 1) ; 否则 ， 建 议 
的 请 求 将 会 耗费 很 长 的 时 间 ， 因 为 它 不 得 不 对 过 多 的 建议 进行 打分 。 


还 可 以 根据 得 分 、 是 否 命 中 结果 或 者 你 是 否 使 用 建议 的 文本 来 查 
询 ， 来 包含 或 者 排除 可 能 的 建议 。 


对 于 按照 得 分 的 过 滤 ， 主 要 的 选项 是 confidence 该 值 越 
高 ， 残 越 相 信和 输入 的 文本 无 须 建 议 。 它 是 这 样 运作 的 : 词组 建议 右 对 
输入 的 文本 和 可 能 的 建议 打分 。 如 果 建 议 的 得 分 比 输入 文本 得 分 乘 以 
confidence (默认 为 1 ) 的 乘积 更 少 ， 那 么 这 个 建议 就 会 被 剔除 。 
增加 这 个 置信 和 度 的 值 ， 将 提升 系统 的 性 能 ， 而 且 帮 助 你 消除 那些 并 不 
理想 的 建议 ， 比 如 “您 是 指 lucene/solar 吗 ? ” 男 一 方面 ， 过 高 的 值 可 能 
会 遗漏 这 样 的 建议 “solr panels”。 


Confidence #ilreal_word_error_likelihood 共同 合作 ， 

这 里 real_Wword_error_likelihood 描 述 了 索引 本 身 中 错 拼 单词 的 比例 (ER 
认 是 0.95 B1) 。 可 能 的 建议 将 其 得 分 和 这 个 值 相 乘 ， 所 以 降低 这 个 值 
会 降低 将 错 拼 词 作为 建议 返回 的 可 能 性 ， 原 因 是 建议 的 分 数 将 很 可 能 
比 输入 文本 的 分 数 更 低 ( 乘 以 confidence ) 。 不 过 ， 如 果 将 这 个 值 
设置 得 太 低 ， 民 好 的 建议 可 能 也 会 被 错过 ， 所 以 通常 情况 下 ， 最 好 将 
real_word_error_likelihood 设置 为 现实 情况 下 索引 里 错 拼 的 
可 能 性 。 


最 后 ， 如 果 系 统 建议 的 查询 没有 返回 任何 结果 那 会 怎么 样 ? A 
太 糟 糙 了 。 不 过 邓 运 的 是 ， 用 户 可 以 让 Elasticsearch 难 证 每 项 建议 。 在 
代码 清单 F-6 中 ， 将 使 用 collate 核 对 选项 让 Elasticsearch 只 返回 命中 结果 
的 建议 。 需 要 指定 一 个 查询 ， 它 将 使 用 {{suggestion}} 变量 来 指 


向 建议 本 身 。 请 注意 ifone accessories 这 样 的 建议 是 如 何 从 列表 
中 移 除 的 。 


0 
Nm 
70 


代码 清单 F-6 ”使 用 collate 来 查看 哪些 建议 将 会 返回 结 


curl localhost :9200/shop/_suggest?pretty -d '{ 
"dym-description": { 
"text": "ifone accesorie", 
"phrase": { 
"field": "product", 
"max_errors": 2, 
"collate": { 
"query": { 
"match": { <--- 这 个 查询 可 以 包含 用 户 作为 参数 传 入 


的 变量 
"{{field name}}": { 
"query": "{{suggestion}}", <--- 建 议 文本 


在 预定 义 的 suggestion 变量 中 


"operator": "AND" 


} 
} 
}, 


"params": { 
"field_name": "product" 
} 
} 
} 
} 
}' 
# reply snippet 
"options" : [ { 
"text" : "iphone accessories", 
"score" : @.3933509 


日 它 也 可 以 用 于 预定 义 普通 查 


这 些 是 Mustache 模板 ， 而 ] 


核对 功能 可 以 有 效 地 消除 一 些 不 好 的 建议 项 。 如 果 有 很 高 比例 的 


不 佳 建议 ， 考 虑 在 独立 的 索引 上 使 用 成 功 的 查询 运行 词组 建议 紫 。 这 


需要 很 多 的 维护 ， 不 过 你 应 该 可 以 获得 更 多 的 相关 建议 。 而 且 由 于 索 
引 可 能 小 得 多 ， 你 也 会 获得 更 好 的 性 能 。 


下 面 继续 讨论 目 动 完 成 的 建议 器 。 你 很 可 能 在 单独 的 索引 上 运行 
ys 原因 走 通 闻 情 况 下 它们 的 执行 必须 非常 快速 ， 内 容 必 须 非 冲 相 


[此 处 和 某 位 知名 的 F1 赛 车 手 的 名 字 有 关 。 一 一 译 者 注 


[2] ” 思 浴 补偿 是 最 开始 使 用 的 名 字 ， 原 因 是 作者 认为 这 么 简单 的 算 
Coan ° 不 过 结果 显示 该 模型 效果 不 错 ， 但 是 名 字 仍 然 延 用 了 
前 的 。 


[3] ”这 里 是 指 有 1-0.95=0.05 的 错 拼 率 。 一 译 者 注 
F.2 ”上 自动 完成 建议 器 


如 果 说 在 2005 年 自动 完成 还 是 很 酷 炫 的 ， 那 么 现在 它 已 经 是 必 备 
的 了 一 一 任何 没有 这 项 功能 的 搜索 引擎 看 上 去 都 是 很 古老 的 。 用 户 期 
望 一 个 良好 的 自动 完成 来 帮助 用 户 实现 更 快 的 (特别 是 移动 设备 上 ，) 
以 及 更 好 的 (你 输入 e， 系 统 应 该 束 知 道 你 要 查找 Elasticsearch) 搜 
索 。 当 然 ， 也 允许 探索 流行 的 选项 (“elasticsearch tutorial”， 实 际 上 这 
(REWER! ) 。 最 后 ， 一 个 优秀 的 自动 完成 将 降低 主 搜 索 系 统 的 
人 负载， 特别 是 在 用 户 有 一 些 快速 搜索 可 用 时 一 一 就 是 直接 跳 入 主流 的 
结果 而 无 须 执行 完整 的 搜索 。 


一 个 优秀 的 目 动 完 成 必须 是 快速 和 相关 的 : 快速 是 因为 它 必 须 在 
用 户 不 断 输 入 的 时 候 产生 建议 ， 而 相关 是 因为 你 并 不 布 望 建议 一 个 没 
有 搜索 结果 或 没有 用 处 的 查询 。 


可 以 在 单独 的 索引 中 保存 成 功 的 商品 或 者 查询 ， 将 它们 作为 民 好 
的 候选 项 来 提升 建议 的 质量 。 然 后 可 以 运行 第 4 章 介绍 的 前 维 查 询 来 生 
成 建议 。 但 是 这 样 的 查询 可 能 不 够 快 ， 因 为 理想 情况 下 ， 系 统 需要 在 
用 户 键入 下 一 个 字符 前 返回 建议 。 


Se SE Was AE FEN as FT AA BFA Pee PRAY OSE © 
它们 是 基于 Lucene 的 Suggest 建 议 模块 而 构建 的 ， 将 数据 保存 在 内 存 中 
的 有 限 状 态 转 移 机 中 (FST) ° FST 实际 上 是 一 种 图 ， 它 可 以 将 词 条 
以 压缩 和 易于 检索 的 方式 来 存储 。 图 F-6 展 示 了 词 条 index、search 和 
suggest 是 如 何 存 储 的 。 


图 F-6 ”基于 前 缀 ， 内 存 中 的 FST 将 帮助 用 户 获取 快速 的 建议 


实际 的 实现 方式 更 复杂 一 点 (原因 是 ， 例 如 ， 它 允许 你 添加 权 
重 ) ， 不 过 用 户 可 以 想象 为 什么 内 存 中 的 FST 是 快速 的 ， 只 需要 跟随 
这 些 路 径 并 查看 到 前 缀 s 将 引 启 向 search 和 suggest ° 


下 面 ， 我 们 将 了 解 完 成 建议 万 是 如 何 工 作 的， 然后 是 它 的 扩展 
e WRZ BUT EAI HEN AE A FE] RE a 


对 于 2.0 和 之 后 的 版 本 ， 一 种 新 的 完成 建议 器 正在 规划 中 。 它 将 包含 现 有 完 o u 
、 ee eer eens 。 不 过 ， 
基本 REDE 同 


F.2.1 ”完成 建议 器 


为 了 告诉 Elasticsearch 你 准备 将 建议 存储 于 目 动 完成 的 FST 中 ， 需 
要 在 映射 中 定义 一 个 字段 并 将 其 type 类 型 设置 为 completion。 存 
储 建 议 最 简单 的 方法 是 将 该 字段 添加 为 某 个 已 索引 字段 的 多 字段 ， 束 
像 代码 清单 F-7 这 样 。 其 中 ， 需 将 索引 和 餐厅 这 样 的 地 点 ， 而 且 将 为 每 个 
地 点 的 name 名 称 字 段 添 加 suggest 的 子 字段 。 


代码 清单 F-7 基于 现 有 数据 的 简单 自动 完成 


curl -XPUT 'localhost:9200/places' -d '{ 
"mappings": { 
"food": { 
"properties": { 
"name": { 
"type": "string", 
"fields": { 
"suggest": { 


"type": "completion" 


--- -建议 将 存储 于 completion 完 成 字段 中 


} 
+d! 


curl -XPUT 'localhost:9200/places/food/1' -d '{ "name": "Pizza 
Hut" } 1 
curl 'localhost:9200/places/_suggest?pretty' -d '{ 
"name-autocomplete": { 
"text": "p", <--- 完 成 建议 的 请 求 运行 于 completion 完成 字段 之 上 
"completion": { 
"field": "name.suggest" 


} 


} 
}' 
#reply 
"name-autocomplete" : [ { 
"text" g "p", 
"offset" : 0, 
"length" : 1, 
"options" : [ { 
"text" : "Pizza Hut", <--- 索 引 后 的 名 称 被 作为 一 个 建议 返 
"score" : 1.0 


} ] 


如 有 果 这 种 简单 、 目 动 完成 的 实现 方式 还 不 够 〈 例 如 ， 结 果 没 有 排 


名 ) ， 还 有 好 几 个 选项 可 以 帮助 用 户 提升 相关 性 。 其 中 一 些 需 要 在 索 
引 阶 段 进 行 〈 例 如 ， 可 以 为 每 个 建议 添加 权重 ) ， 而 男 一 些 在 搜索 阶 


段 生 效 〈 可 以 开启 模糊 性 ) 。 在 所 有 的 这 些 之 上 ， 建 议 可 以 设置 有 效 
载重 ， 其 中 你 可 以 存储 用 于 快速 搜索 的 文档 ID 。 


1. 在 索引 阶段 提升 相关 性 


在 字符 串 字 段 上 进行 普通 搜索 的 时 候 ， 输 入 的 文本 在 索引 和 搜索 
阶段 都 会 被 分 析 。 这 就 是 为 什么 Pizza Hut 会 和 p 匹配 。 用 户 可 以 通 
过 index_analyzer 和 search_analyzer 选项 来 控制 分 析 过 程 。 
举 个 例子 ， 如 有 果 你 想 大 小 写 敏 感 的 建议 (这样 Pizza Hut 只 会 匹配 P 
， 而 不 会 匹配 p ) ， 可 以 使 用 这 样 的 关键 词 分 析 器 。 


"Suggest": { 
"type": "completion", 


"index_analyzer": "keyword", 
"search_analyzer": "keyword" 


如 采 需 要 有 关 分 析 的 更 多 信息 ， 请 碍 阅 第 6 章 。 


多 数 情 况 下 ， 用 户 将 在 单独 的 字段 中 、 单 独 的 索引 中 甚至 是 单独 
的 Elasticsearch 集 群 中 保存 建议 。 当 你 想 根 据 其 性 能 来 控制 建议 的 时 
候 、 当 你 想 单 独 于 主 搜索 系统 来 扩展 建议 亏 的 时 候 ， 这 都 非常 有 用 。 


当 建 议 存 放 在 单独 的 字段 中 时 ， 可 以 将 匹配 的 输入 和 你 所 提供 的 
建议 (输出) 分开 来 。 例 如 ， 像 这 样 的 文档 : 


{ "name": { 
"input": "phone", 
"output": "iphone" 


将 为 输入 文本 ph iphone 。 此 外 ， 还 可 以 提供 多 个 输入 。 


"name": { 


"input": ["iphone", "phone"], 
"output": "iphone" 
} 
} 


最 后 ， 可 以 依据 索引 阶段 所 提供 的 权重 来 对 建议 进行 排名 。 代 码 
清单 F-8 将 在 本 书 一 直 使 用 的 get-together 用 例 的 分 组 标签 上 ， 结 合 输 


入 、 输 出 和 权重 来 实现 目 动 完成 。 


代码 清单 F-8 使 用 权重 、 输 入 和 输出 


curl -XPUT 'localhost:9200/autocomplete' -d '{ 


"mappings": { 
"group": { 
"properties": { 
"tags": { "type": "completion" } <--- 当 使 用 单独 的 字段 时 ， 可 以 
分 离 输入 、 输 出 和 权重 
} 
} 
a 


curl -XPUT 'localhost:9200/autocomplete/group/1i' -d '{ 
"tags": { 

"input": ["big data", "data"], 

"output": "big data", 

"weight": 8 
curl -XPUT 'localhost:9200/autocomplete/group/2' -d '{ 
"tags": { 

"input": ["data visualization", "visualization"], 

"output": "data visualization", 

"weight": 5 
curl 'localhost:9200/autocomplete/_suggest?pretty' -d '{ 
"tags-autocomplete": { 

"text": mq") 

"completion": { 

"field": "tags" 


} 
了 了 
# reply 
"tags-autocomplete" : [ { 
"text"! : mq", 
"offset" : 0, 
"length" : 1, 
"options" : [ { 


"text" : "big data", =--- 建 议 是 按照 权重 排名 后 的 输出 


"score" : 8.0 
T 
"text" : "data visualization", 
"score" : 5.0 
}] 
}] 


2. 在 搜索 阶段 提升 相关 性 


当 用 户 运行 建议 的 请 求 时 ， 可 以 决定 出 现 哪 些 建 议 。 就 像 其 他 建 
议 器 一 样 ，size 参数 让 用 户 可 以 控制 返回 多 少 项 建议 。 然 后 ， 如 果 
想 对 拼写 进行 容错 ， 需 要 在 建议 请 求 的 completion 对 象 下 面 设置 
fuzzy 模糊 对 象 。 通 过 这 种 方式 开启 模糊 查询 后 ， 就 可 以 配置 下 列 这 
些 额外 的 选项 。 


e fuzziness ， 可 以 指定 所 允许 的 最 大 编辑 距离 。 

e min_ length ， 指 定 什么 长 度 的 输入 文本 可 以 开局 模糊 查询 。 

。prefix_length ， 它 假设 若干 开始 的 字符 是 正确 的 ， 这 样 可 以 
通过 牺牲 灵活 性 来 提升 性 能 。 


所 有 这 些 选 项 都 在 建议 请 求 的 completion 对 象 下 面 。 


% curl 'localhost:9200/autocomplete/_suggest?pretty' -d '{ 
"tags-autocomplete": { 
"text": "daata", 
"completion": { 
"field": "tags", 
"size": 3, 


"fuzzy": { 


"fuzziness": 2, 


"min_length": 4, 


"prefix_length": 2 


3. 实现 目 带 有 效 载荷 快速 搜索 


很 多 搜索 的 解决 方案 让 你 点 击 建 议 的 时 候 ， 可 以 直接 获取 某 个 具 
Ga 而 不 是 运行 一 个 搜索 。 图 F-7 展 示 了 SoundCloud 的 一 个 例 


图 F-7 ”快速 搜索 让 你 直接 获得 结果 ， 而 无 须 执行 一 个 搜索 请 求 


为 了 在 Elasticsearch 中 实现 这 一 点 ， 需 要 在 completion 字段 中 放 
入 有 效 载 薪 ， 而 这 个 有 效 载 答应 该 是 锌 建议 文档 的 ID。 然 后 束 能 使 用 
这 个 ID 获取 相应 的 文档 ， 如 代码 清单 F-9 所 示 。 


代码 清单 F-9 ”有效 载 集 可 以 获取 文档 ， 而 不 是 搜索 被 建议 的 文本 


curl -XPUT 'localhost:9200/autocomplete/_mapping/group' -d '{ 


"properties": { 
"name": { 
"type": "completion", 
"payloads": true +--- 在 completion 字段 的 映射 中 开启 有 效 载荷 
} 
t}! 
curl -XPUT 'localhost:9200/autocomplete/group/3' -d '{ 
"name": { 
"input": "Elasticsearch San Francisco", =---- 如 果 输 入 和 输出 是 一 样 


的 ， 可 以 忽略 这 个 
"payload": { 
"groupId": 3 =--- 将 有 效 载 荷 加 入 该 文档 


1 


curl 'localhost:9200/autocomplete/_suggest?pretty' -d '{ 
"name-autocomplete": { 


"text": "elastic", 
"completion": { 
"field": "name" 
} 
t}! 
# reply 
"options" : [ { 
"text" : "Elasticsearch San Francisco", 
"Score" : 1.0, <--- 有 效 载 集 随 着 建议 一 起 返回 。 现 在 你 可 以 获得 ID 为 3 
的 文档 
"payload":{"groupId":3} 
+ ] 


完成 建议 占 返 回 了 所 有 和 输入 文本 相 匹 配 的 结果 ， 它 对 
SoundCloud 这 样 的 应 用 可 能 很 有 效果 。 但 是 ， 有 些 使 用 案例 需要 过 
滤 ， 束 像 你 的 get-together 站 点 : 你 只 想 建 议 举 办 地 和 用 户 足 够 近 的 活 
动 并 忽略 其 他 的 。 为 了 实现 这 一 点 ， 需 要 上 下 文 过 滤 右 ， 它 在 完成 建 
议 志 的 基础 上 加 入 了 过 滤 的 功能 。 


F.2.2 上下文 建议 器 


上 下 文 建议 器 允许 用 户 使 用 context 上 下 文 来 进行 过 滤 ， 上 下 文 
可 以 是 分 类 ( 词 条 ) 或 者 地 理 位 置 。 为 了 开局 上 下 文 ， 需 要 在 映射 中 
指定 它们 ， 然 后 在 文档 和 建议 请 求 中 提供 上 下 文 。 


1. 在 映射 中 定义 上 下 文 
在 映射 中 ， 可 以 为 completion 字段 添加 一 个 或 多 个 context 


值 。 每 个 上 下 文 有 type 类 型 ， 可 以 是 category 分 类 或 者 是 geo 地 理 
位 置 。 对 于 geo 上 下 文 ， 需要 指定 一 个 精确 值 precision 。 


"name": { 
"type": "completion", 
"context": { 


"location": { 


W type" : "geo", 


"precision": "100km" 


}, 


"category": { 


"type": "category" 


上 下 文 的 底层 结构 ， 和 完成 建议 器 所 用 的 FST 结 构 是 一 样 的 。 为 了 使 用 过 滤 ， 上 下 文 
将 用 作 实 际 建议 的 前 缀 ， 如 果 分 类 是 search 而 你 想 匹配 的 文本 是 Lucene ， 那 么 就 是 
search_lucene ° 


对 于 geo 上 下 文 ， 前缀 是 地 理 散 列 ， 就 像 abcde 。 如 你 在 附录 A 所 见 ， 地 理 散 列 表 
示 地 图 上 的 一 个 矩形 区 域 ， 而 散 列 字 符 串 越 长 ， 定 位 的 精确 度 越 户 。 例 如 ，gc 是 一 个 履 盖 
大 部 分 美国 和 爱尔兰 的 和 矩形， 而 gcp 只 覆盖 了 从 伦敦 到 南安 普 敦 的 区 域 。 


给 定 地 图 上 的 某 个 点 ， 可 以 使 用 地 理 散 列 近 似 它 的 位 置 ， 精 确 度 的 多 少 取决 于 散 列 的 
长 度 。 对 于 建议 而 言 ， 通 常 要 挑选 能 反应 兴趣 点 和 当前 位 置 有 多 近 的 精度 。 例 如 ， 和 餐厅 需 
要 使 用 精确 的 散 列 (如 10 公 里 范围 ， 这 上 比 get-together 活 动 使 用 的 精度 (可 能 是 100 公 里 的 
范围 更 为 精准 ， 这 是 因为 我 们 假设 相对 于 一 个 汉堡 ， 用 户 对 于 每 月 举办 1 次 的 活动 更 原 
AS 


i 


2. 将 上 下 文 添加 到 文档 和 建议 请 求 


有 了 映 映 ， 束 可 以 将 上 下 文 添 加 到 文档 中 ， 放 在 完成 的 context 
ts 


{ "name": { 
"input": "Elasticsearch Denver", 
"context": { 


"location": { 


"lat": 39.752337, 


"lon": -105.00083 


}, 


"category": ["big data"] 


当 获 取 建 议 的 时 候 ， 应 该 向 completion 请 求 也 添加 一 个 
context 的 值 : 


% curl 'localhost:9200/autocomplete/_suggest?pretty -d '{ 
"name-autocomplete": { 
"text": "denv", 
"completion": { 
"field": "name", 
"context": { 


"category": "big data", 


"location": { 


"lat": 39, 


"lon": -105 


3. 诊断 上 下 文 〈 以 及 完成 ) 建议 器 的 错误 


通 前 ， 如 采 定 义 了 上 下 文 且 运行 了 上 下 文 建议 癸 ， 而 在 请 求 中 又 
没有 提供 上 下 文 ， 那么 每 个 分 片 都 将 会 产生 一 个 错误 。 


"reason": "BroadcastShardOperationFailedException[ [autocomplete | 
[0] ]; 

nested: Elasticsearch Exception[failed to execute suggest]; 
nested: ElasticsearchIllegal ArgumentException [suggester 
[completion] requires context to be setup]; " 


但 是 ， 如 采 确 实 只 需要 对 某 些 请 求 和 文档 指定 上 下 文 ， 可 以 在 映 
IPES SERA IE 


"name": { 
"type": "completion", 


"context": { 
"category": { 
"type": "category", 
"default": "default_category" 


} 
} 


然后 ， 可 以 索引 没有 分 类 的 文档 。 


"name": { 
"input": "test meeting" 
} 
} 


最 后 ， 如 条 用 户 并 未 输入 任何 过 滤 的 上 下 文 ， 可 以 在 应 用 中 使 用 
默认 的 值 进行 填充 ， 对 于 地 理 上 下 文 也 是 适用 的 。 


"name-autocomplete": { 
"text": "te", 
"completion": { 
"field": "name", 
"context": { 
"category": "default_category" 


从 功能 的 角度 来 看 ， 这 了 束 好 像 当 需要 的 时 候 殉 使 用 上 下 文 建议 
右 ， 当 不 需要 的 时 候 束 使 用 完成 建议 郁 。 不 过 ， 两 种 情形 下 都 可 能 获 


得 来 目 删 除 文档 的 建议 。 之 所 以 会 发 生 这 种 情况 ， 原 因 是 底层 使 用 的 
FST 是 为 每 个 Lucene 索 引 分 段 构建 的 ， 而 它们 永远 不 会 更 新 直到 相应 
的 分 段 在 合并 中 被 删除 (FST 也 是 在 此 时 被 删除 ) 。 可 能 你 还 记得 ， 


第 3 章 介绍 过 ， 当 一 篇 文档 被 删除 时 ， 它 并 没有 从 分 段 中 消失 ， 而 只 
征 被 标记 为 “已 删除 ”。 


尽管 搜索 足够 聪明 ， 可 以 过 减 掉 已 被 删除 的 文档 ， 但 是 建议 郁 不 
会 ， 至 少 在 1.4 版 本 中 是 这 样 。 在 新 的 完成 建议 右 解 决 该 问题 之 前 ， 用 
户 可 以 通过 修改 合并 策略 或 进行 优化 ， 确 保 针 引 包含 尽 可 能 少 的 已 删 
除 文档 ， 最 终 来 规避 这 个 问题 。 对 于 合并 的 更 多 信息 ， 参 见 10.2.251。 


